自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 个人周报合集

然后我找到了Hugging Face 的 Datasets 库,这个库提供了大量预构建的数据集,涵盖了广泛的任务和领域,包括文本分类、情感分析、机器翻译、问答、对话系统等。在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;根据聚合报告的结果,在执行了1000次请求的测试中,服务器表现出良好的稳定性和效率,平均响应时间为183毫秒,但个别请求的响应时间仍有较大波动。

2024-06-24 01:15:07 280

原创 项目实训个人周报8

其他队友的大模型训练和前后端开发工作基本完成了,于是我进行了测试。

2024-06-24 01:05:46 267

原创 项目实训个人周报7

import os# 所有JSON文件都存放在一个名为 'json_files' 的目录中# 遍历目录中的每个文件# 打开并读取JSON文件all_data.append(data) # 将读取的数据添加到列表中# 将合并后的数据保存到一个新的JSON文件中导入所需的库:使用json进行数据的序列化和反序列化,使用os来处理文件和目录路径。设置文件目录:所有的JSON文件都放在名为json_files的目录中。读取JSON文件使用遍历指定目录中的所有文件。检查文件扩展名是否为。

2024-06-24 00:36:13 165

原创 项目实训个人周报6

删除相似的样本可以确保模型接触到更多样化的训练数据,从而提高模型的鲁棒性和应对不同情况的能力。去除过短或过长的文本有助于确保训练数据的长度分布更加均衡,避免模型对特定长度的文本过度拟合。在机器学习中,去除过短或过长的训练数据通常是为了提高模型的性能和稳定性。通过删除相似的样本,可以减少数据冗余,使模型更专注于学习多样化和有代表性的信息。删除相似的样本有助于提高模型的泛化能力,使其在面对新数据时表现更好。这段代码将根据问题和答案的相似度过滤出唯一的行,是处理大量文本数据。

2024-06-24 00:28:53 1496

原创 项目实训个人周报5

数据采集后的文本并不全是中文的,这很正常。我下一步对这部分文本数据进行了翻译,实现方法是通过DeepL这个工具api用python代码实现。不过要订阅申请DeepL的api密钥。翻译操作系统知识数据:(这里源文件是parquet类型)翻译计网知识数据:(这里源文件是俄语版,方法略有改动)

2024-06-24 00:18:04 281

原创 项目实训个人周报4

llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功能在内的多个数据处理工具与算法,为中文AI大模型提供安全可信的主流数据。在和负责大模型部分的同学沟通后,进一步对数据进行了处理,使其更贴合大规模预训练模型。不过在这里,我对清洗前后的数据进行观察,发现并没有明显变化,因为原本的数据集已经是在上传者处理过后上传至平台上的。下面是作者给出的示例代码,我稍加改动,对预处理的数据集进行了适配大模型的清洗,得到了最终数据集。

2024-05-31 15:46:36 265

原创 项目实训个人周报3

在大模型训练中,数据集划分、数据增强和数据可视化是至关重要的步骤,确保模型训练的有效性、可靠性和可解释性。常用的划分比例是70%用于训练,15%用于验证,15%用于测试。在时间序列数据中,按照时间顺序划分数据,确保训练集早于验证集,验证集早于测试集。在分类任务中,确保各类样本在训练、验证和测试集中的比例一致,可以使用分层抽样。使用随机数生成器确保数据集划分的随机性,避免样本顺序导致的偏差。随机删除句子中的一些词,生成新的变体。随机选择句子中的词,替换为其同义词。这里我使用随机划分,使用。

2024-05-31 15:45:49 220

原创 项目实训个人周报2

通过对训练数据进行全面的分析,可以发现潜在的问题和优化空间,提高模型的整体效果。通过上述模版代码,去除了数据集中"答:"的字样,然后如法炮制,将空格和乱码都进行了去除和清洗。:在训练过程中,通常会设定一个最大文本长度,超过该长度的文本会被截断。例如,句子分类任务可能不需要很长的文本,而文档摘要生成则需要处理更长的文本。可以观察到,数据的结构比较清晰,q列是问题,a列是答案,并且数据中的空格、乱码等已经被去除。:较长的文本通常包含更多的信息和上下文,有助于模型理解复杂的语义关系和捕捉长距离依赖。

2024-05-31 15:45:14 371

原创 项目实训个人周报1

python编程:https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;结合做大模型相关工作的同学的反馈,我选取了上述中的几个数据集,整理成了csv文件,以便于后续的数据清洗等工作。

2024-05-31 15:44:40 314

原创 山东大学软件学院项目实训个人周报合集

因为个人疏忽,之前的个人周报都上传到了个人博客:https://srj2003.top/,现在整合过来。

2024-05-29 20:43:52 1511

原创 山东大学软件学院大二下计组课设

sunrogjun/SDU-COTest: 山东大学软件学院大二下计组课设 (github.com)

2023-11-20 21:25:34 105 1

原创 山东大学软件学院大二下面向对象实验

sunrogjun/SDU-OOTest: 山东大学软件学院大二下面向对象实验 (github.com)

2023-11-20 21:24:38 270 1

原创 山东大学软件学院大二下操作系统实验

sunrogjun/SDU-OSTest: 山东大学软件学院大二下操作系统实验 (github.com)

2023-11-20 21:24:07 771 1

原创 山东大学软件学院大二上数据结构实验报告

sunrogjun/SDU-DataStructureTest: 山东大学软件学院大二上数据结构实验报告 (github.com)

2023-11-20 21:23:36 90 1

原创 山东大学软件学院大一上高级程序设计语言(JAVA)实验报告

sunrogjun/SDU-JavaTest: 山东大学软件学院大一上高级程序设计语言(JAVA)实验报告 (github.com)

2023-11-20 21:22:56 250 1

原创 山东大学软件学院大二下数据结构课设源码+报告等

sunrogjun/SDU-DataStructureCP: 山东大学软件学院大二下数据结构课设源码+报告等 (github.com)

2023-11-20 21:20:12 297 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除