自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 项目实训个人周报4

llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功能在内的多个数据处理工具与算法,为中文AI大模型提供安全可信的主流数据。在和负责大模型部分的同学沟通后,进一步对数据进行了处理,使其更贴合大规模预训练模型。不过在这里,我对清洗前后的数据进行观察,发现并没有明显变化,因为原本的数据集已经是在上传者处理过后上传至平台上的。下面是作者给出的示例代码,我稍加改动,对预处理的数据集进行了适配大模型的清洗,得到了最终数据集。

2024-05-31 15:46:36 236

原创 项目实训个人周报3

在大模型训练中,数据集划分、数据增强和数据可视化是至关重要的步骤,确保模型训练的有效性、可靠性和可解释性。常用的划分比例是70%用于训练,15%用于验证,15%用于测试。在时间序列数据中,按照时间顺序划分数据,确保训练集早于验证集,验证集早于测试集。在分类任务中,确保各类样本在训练、验证和测试集中的比例一致,可以使用分层抽样。使用随机数生成器确保数据集划分的随机性,避免样本顺序导致的偏差。随机删除句子中的一些词,生成新的变体。随机选择句子中的词,替换为其同义词。这里我使用随机划分,使用。

2024-05-31 15:45:49 198

原创 项目实训个人周报2

通过对训练数据进行全面的分析,可以发现潜在的问题和优化空间,提高模型的整体效果。通过上述模版代码,去除了数据集中"答:"的字样,然后如法炮制,将空格和乱码都进行了去除和清洗。:在训练过程中,通常会设定一个最大文本长度,超过该长度的文本会被截断。例如,句子分类任务可能不需要很长的文本,而文档摘要生成则需要处理更长的文本。可以观察到,数据的结构比较清晰,q列是问题,a列是答案,并且数据中的空格、乱码等已经被去除。:较长的文本通常包含更多的信息和上下文,有助于模型理解复杂的语义关系和捕捉长距离依赖。

2024-05-31 15:45:14 355

原创 项目实训个人周报1

python编程:https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;结合做大模型相关工作的同学的反馈,我选取了上述中的几个数据集,整理成了csv文件,以便于后续的数据清洗等工作。

2024-05-31 15:44:40 296

原创 山东大学软件学院项目实训个人周报合集

因为个人疏忽,之前的个人周报都上传到了个人博客:https://srj2003.top/,现在整合过来。

2024-05-29 20:43:52 701

原创 山东大学软件学院大二下计组课设

sunrogjun/SDU-COTest: 山东大学软件学院大二下计组课设 (github.com)

2023-11-20 21:25:34 97 1

原创 山东大学软件学院大二下面向对象实验

sunrogjun/SDU-OOTest: 山东大学软件学院大二下面向对象实验 (github.com)

2023-11-20 21:24:38 236 1

原创 山东大学软件学院大二下操作系统实验

sunrogjun/SDU-OSTest: 山东大学软件学院大二下操作系统实验 (github.com)

2023-11-20 21:24:07 319 1

原创 山东大学软件学院大二上数据结构实验报告

sunrogjun/SDU-DataStructureTest: 山东大学软件学院大二上数据结构实验报告 (github.com)

2023-11-20 21:23:36 82 1

原创 山东大学软件学院大一上高级程序设计语言(JAVA)实验报告

sunrogjun/SDU-JavaTest: 山东大学软件学院大一上高级程序设计语言(JAVA)实验报告 (github.com)

2023-11-20 21:22:56 231 1

原创 山东大学软件学院大二下数据结构课设源码+报告等

sunrogjun/SDU-DataStructureCP: 山东大学软件学院大二下数据结构课设源码+报告等 (github.com)

2023-11-20 21:20:12 272 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除