- 博客(16)
- 收藏
- 关注
原创 个人周报合集
然后我找到了Hugging Face 的 Datasets 库,这个库提供了大量预构建的数据集,涵盖了广泛的任务和领域,包括文本分类、情感分析、机器翻译、问答、对话系统等。在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;根据聚合报告的结果,在执行了1000次请求的测试中,服务器表现出良好的稳定性和效率,平均响应时间为183毫秒,但个别请求的响应时间仍有较大波动。
2024-06-24 01:15:07
280
原创 项目实训个人周报7
import os# 所有JSON文件都存放在一个名为 'json_files' 的目录中# 遍历目录中的每个文件# 打开并读取JSON文件all_data.append(data) # 将读取的数据添加到列表中# 将合并后的数据保存到一个新的JSON文件中导入所需的库:使用json进行数据的序列化和反序列化,使用os来处理文件和目录路径。设置文件目录:所有的JSON文件都放在名为json_files的目录中。读取JSON文件使用遍历指定目录中的所有文件。检查文件扩展名是否为。
2024-06-24 00:36:13
165
原创 项目实训个人周报6
删除相似的样本可以确保模型接触到更多样化的训练数据,从而提高模型的鲁棒性和应对不同情况的能力。去除过短或过长的文本有助于确保训练数据的长度分布更加均衡,避免模型对特定长度的文本过度拟合。在机器学习中,去除过短或过长的训练数据通常是为了提高模型的性能和稳定性。通过删除相似的样本,可以减少数据冗余,使模型更专注于学习多样化和有代表性的信息。删除相似的样本有助于提高模型的泛化能力,使其在面对新数据时表现更好。这段代码将根据问题和答案的相似度过滤出唯一的行,是处理大量文本数据。
2024-06-24 00:28:53
1496
原创 项目实训个人周报5
数据采集后的文本并不全是中文的,这很正常。我下一步对这部分文本数据进行了翻译,实现方法是通过DeepL这个工具api用python代码实现。不过要订阅申请DeepL的api密钥。翻译操作系统知识数据:(这里源文件是parquet类型)翻译计网知识数据:(这里源文件是俄语版,方法略有改动)
2024-06-24 00:18:04
281
原创 项目实训个人周报4
llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功能在内的多个数据处理工具与算法,为中文AI大模型提供安全可信的主流数据。在和负责大模型部分的同学沟通后,进一步对数据进行了处理,使其更贴合大规模预训练模型。不过在这里,我对清洗前后的数据进行观察,发现并没有明显变化,因为原本的数据集已经是在上传者处理过后上传至平台上的。下面是作者给出的示例代码,我稍加改动,对预处理的数据集进行了适配大模型的清洗,得到了最终数据集。
2024-05-31 15:46:36
265
原创 项目实训个人周报3
在大模型训练中,数据集划分、数据增强和数据可视化是至关重要的步骤,确保模型训练的有效性、可靠性和可解释性。常用的划分比例是70%用于训练,15%用于验证,15%用于测试。在时间序列数据中,按照时间顺序划分数据,确保训练集早于验证集,验证集早于测试集。在分类任务中,确保各类样本在训练、验证和测试集中的比例一致,可以使用分层抽样。使用随机数生成器确保数据集划分的随机性,避免样本顺序导致的偏差。随机删除句子中的一些词,生成新的变体。随机选择句子中的词,替换为其同义词。这里我使用随机划分,使用。
2024-05-31 15:45:49
220
原创 项目实训个人周报2
通过对训练数据进行全面的分析,可以发现潜在的问题和优化空间,提高模型的整体效果。通过上述模版代码,去除了数据集中"答:"的字样,然后如法炮制,将空格和乱码都进行了去除和清洗。:在训练过程中,通常会设定一个最大文本长度,超过该长度的文本会被截断。例如,句子分类任务可能不需要很长的文本,而文档摘要生成则需要处理更长的文本。可以观察到,数据的结构比较清晰,q列是问题,a列是答案,并且数据中的空格、乱码等已经被去除。:较长的文本通常包含更多的信息和上下文,有助于模型理解复杂的语义关系和捕捉长距离依赖。
2024-05-31 15:45:14
371
原创 项目实训个人周报1
python编程:https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;结合做大模型相关工作的同学的反馈,我选取了上述中的几个数据集,整理成了csv文件,以便于后续的数据清洗等工作。
2024-05-31 15:44:40
314
原创 山东大学软件学院大二上数据结构实验报告
sunrogjun/SDU-DataStructureTest: 山东大学软件学院大二上数据结构实验报告 (github.com)
2023-11-20 21:23:36
90
1
原创 山东大学软件学院大一上高级程序设计语言(JAVA)实验报告
sunrogjun/SDU-JavaTest: 山东大学软件学院大一上高级程序设计语言(JAVA)实验报告 (github.com)
2023-11-20 21:22:56
250
1
原创 山东大学软件学院大二下数据结构课设源码+报告等
sunrogjun/SDU-DataStructureCP: 山东大学软件学院大二下数据结构课设源码+报告等 (github.com)
2023-11-20 21:20:12
297
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人