琴生c-CSDN博客

原创个人周报合集

然后我找到了Hugging Face 的 Datasets 库，这个库提供了大量预构建的数据集，涵盖了广泛的任务和领域，包括文本分类、情感分析、机器翻译、问答、对话系统等。在开始的时候，我准备从百度百科、csdn等知识网站上收集数据，但是我发现这些网站上的数据质量良莠不齐，有的甚至有常识性错误，难以在爬取的时候进行分辨；根据聚合报告的结果，在执行了1000次请求的测试中，服务器表现出良好的稳定性和效率，平均响应时间为183毫秒，但个别请求的响应时间仍有较大波动。

2024-06-24 01:15:07 280

原创项目实训个人周报8

其他队友的大模型训练和前后端开发工作基本完成了，于是我进行了测试。

2024-06-24 01:05:46 267

原创项目实训个人周报7

import os# 所有JSON文件都存放在一个名为 'json_files' 的目录中# 遍历目录中的每个文件# 打开并读取JSON文件all_data.append(data) # 将读取的数据添加到列表中# 将合并后的数据保存到一个新的JSON文件中导入所需的库：使用json进行数据的序列化和反序列化，使用os来处理文件和目录路径。设置文件目录：所有的JSON文件都放在名为json_files的目录中。读取JSON文件使用遍历指定目录中的所有文件。检查文件扩展名是否为。

2024-06-24 00:36:13 165

原创项目实训个人周报6

删除相似的样本可以确保模型接触到更多样化的训练数据，从而提高模型的鲁棒性和应对不同情况的能力。去除过短或过长的文本有助于确保训练数据的长度分布更加均衡，避免模型对特定长度的文本过度拟合。在机器学习中，去除过短或过长的训练数据通常是为了提高模型的性能和稳定性。通过删除相似的样本，可以减少数据冗余，使模型更专注于学习多样化和有代表性的信息。删除相似的样本有助于提高模型的泛化能力，使其在面对新数据时表现更好。这段代码将根据问题和答案的相似度过滤出唯一的行，是处理大量文本数据。

2024-06-24 00:28:53 1496

原创项目实训个人周报5

数据采集后的文本并不全是中文的，这很正常。我下一步对这部分文本数据进行了翻译，实现方法是通过DeepL这个工具api用python代码实现。不过要订阅申请DeepL的api密钥。翻译操作系统知识数据：（这里源文件是parquet类型）翻译计网知识数据：(这里源文件是俄语版，方法略有改动)

2024-06-24 00:18:04 281

原创项目实训个人周报4

llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功能在内的多个数据处理工具与算法，为中文AI大模型提供安全可信的主流数据。在和负责大模型部分的同学沟通后，进一步对数据进行了处理，使其更贴合大规模预训练模型。不过在这里，我对清洗前后的数据进行观察，发现并没有明显变化，因为原本的数据集已经是在上传者处理过后上传至平台上的。下面是作者给出的示例代码，我稍加改动，对预处理的数据集进行了适配大模型的清洗，得到了最终数据集。

2024-05-31 15:46:36 265

原创项目实训个人周报3

在大模型训练中，数据集划分、数据增强和数据可视化是至关重要的步骤，确保模型训练的有效性、可靠性和可解释性。常用的划分比例是70%用于训练，15%用于验证，15%用于测试。在时间序列数据中，按照时间顺序划分数据，确保训练集早于验证集，验证集早于测试集。在分类任务中，确保各类样本在训练、验证和测试集中的比例一致，可以使用分层抽样。使用随机数生成器确保数据集划分的随机性，避免样本顺序导致的偏差。随机删除句子中的一些词，生成新的变体。随机选择句子中的词，替换为其同义词。这里我使用随机划分，使用。

2024-05-31 15:45:49 220

原创项目实训个人周报2

通过对训练数据进行全面的分析，可以发现潜在的问题和优化空间，提高模型的整体效果。通过上述模版代码，去除了数据集中"答："的字样，然后如法炮制，将空格和乱码都进行了去除和清洗。：在训练过程中，通常会设定一个最大文本长度，超过该长度的文本会被截断。例如，句子分类任务可能不需要很长的文本，而文档摘要生成则需要处理更长的文本。可以观察到，数据的结构比较清晰，q列是问题，a列是答案，并且数据中的空格、乱码等已经被去除。：较长的文本通常包含更多的信息和上下文，有助于模型理解复杂的语义关系和捕捉长距离依赖。

2024-05-31 15:45:14 371

原创项目实训个人周报1

python编程：https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?在开始的时候，我准备从百度百科、csdn等知识网站上收集数据，但是我发现这些网站上的数据质量良莠不齐，有的甚至有常识性错误，难以在爬取的时候进行分辨；结合做大模型相关工作的同学的反馈，我选取了上述中的几个数据集，整理成了csv文件，以便于后续的数据清洗等工作。

2024-05-31 15:44:40 314