项目实训个人周报6

最新推荐文章于 2024-07-26 13:24:37 发布

琴生c

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量1.3k

点赞数 11

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/srjghs/article/details/139909246

版权

去除过短或者过长训练数据

在机器学习中，去除过短或过长的训练数据通常是为了提高模型的性能和稳定性。以下是具体的原因：

质量控制

过短的文本：

可能包含太少的信息，无法提供足够的上下文。
可能是噪音或无用的内容，如单个字符或单词。

过长的文本：

可能包含冗余信息或噪音。
处理起来资源消耗较大，增加计算开销。

计算效率

过长的文本：

需要更多的计算资源和时间。
可能导致内存不足或训练时间过长。

模型训练稳定性

过短的文本：

可能导致模型过拟合，无法泛化到更长或更复杂的句子。
模型可能学不到有用的特征。

过长的文本：

可能导致模型在训练时遇到梯度消失或爆炸的问题。
增加模型的复杂性，可能需要更复杂的架构来处理。

数据均衡性

去除过短或过长的文本有助于确保训练数据的长度分布更加均衡，避免模型对特定长度的文本过度拟合。

一致性和可解释性

保持数据长度在一个合理的范围内，可以提高模型预测结果的一致性和可解释性。

下面是我去除过短或者过长训练数据的代码

import pandas as pd

# 读取CSV文件
data = pd.read_csv('data.csv')

# 过滤数据，保留满足条件的行
filtered_data = data[(data['question'].str.len() >= 5) & (data['question'].str.len() <= 50) &
                     (data['answer'].str.len() >= 50) & (data['answer'].str.len() <= 512)]

# 保存过滤后的数据到新的CSV文件
filtered_data.to_csv('filtered_data.csv', index=False)

读取CSV文件：使用pd.read_csv()函数读取名为data.csv的文件
过滤数据
- 使用Pandas的字符串方法.str.len()来计算每一行中question和answer列的长度。
- 使用布尔索引过滤出满足所有条件的行：
  - 问题列的长度至少为5个字符且不超过50个字符。
  - 答案列的长度至少为50个字符且不超过512个字符。
保存过滤后的数据：使用to_csv()方法将过滤后的数据保存到一个名为filtered_data.csv的新文件中。设置index=False参数来避免写入行索引到文件。

删除相似的问题或者相似的答案

在大模型训练中，删除相似的问题或相似的答案有以下几个主要原因：

减少数据冗余

相似的问题和答案:

会导致数据集中存在大量重复信息。
增加数据量但不提供新的有价值的信息。

通过删除相似的样本，可以减少数据冗余，使模型更专注于学习多样化和有代表性的信息。

提高训练效率

减少冗余数据:

可以显著减少训练时间和计算资源的消耗。
使模型训练更高效，因为训练时不需要反复处理相似的信息。

防止过拟合

相似的问题和答案:

可能导致模型对某些特定模式过拟合。
模型可能会记住这些重复的样本，而不是学会如何处理更多样化的数据。

删除相似的样本有助于提高模型的泛化能力，使其在面对新数据时表现更好。

增强模型的多样性学习

多样化数据:

使模型能够学习到更广泛的模式和特征。
提高模型在不同情境下的表现能力。

删除相似的样本可以确保模型接触到更多样化的训练数据，从而提高模型的鲁棒性和应对不同情况的能力。

改善数据集质量

清理数据集:

可以去除那些重复或者几乎相同的问答对，提升数据集的整体质量。
有助于确保数据集中的每个样本都提供有价值的训练信息。

高质量的数据集有助于模型更有效地学习和推理。

下面是我的代码

import pandas as pd
from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

# 读取CSV文件
data = pd.read_csv('data.csv')

# 初始化要删除的索引列表
indices_to_drop = set()

# 检查问题列的相似度
for i in range(len(data) - 1):
    for j in range(i + 1, len(data)):
        # 比较问题列
        if similar(data.loc[i, 'question'], data.loc[j, 'question']) > 0.8:
            indices_to_drop.add(j)  # 添加问题二的索引到删除列表

        # 比较答案列
        if similar(data.loc[i, 'answer'], data.loc[j, 'answer']) > 0.8:
            indices_to_drop.add(j)  # 添加答案二的索引到删除列表

# 删除相似度高的行
data = data.drop(indices_to_drop)

# 保存过滤后的数据到新的CSV文件
data.to_csv('filtered_data.csv', index=False)

相似度计算函数
- 使用SequenceMatcher函数比较两个字符串的相似度。这个函数返回一个介于0和1之间的数值，表示两个字符串的相似度百分比。
读取CSV文件
- 使用pd.read_csv()读取CSV文件。
初始化索引列表
- 使用一个集合indices_to_drop来存储需要删除的行索引。使用集合可以避免重复添加同一索引。
双重循环比较每行
- 用双重循环遍历数据框，比较每一对问题和答案。

如果发现问题或答案的相似度超过80%，将较后的行索引添加到indices_to_drop集合中。

删除指定行
- 使用DataFrame.drop方法删除所有标记为删除的行。
保存结果
- 使用to_csv()方法将处理后的数据保存到新的CSV文件filtered_data.csv中，index=False参数确保不保存行索引。

这段代码将根据问题和答案的相似度过滤出唯一的行，是处理大量文本数据

琴生c

关注

11
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
项目实训个人周报6

删除相似的样本可以确保模型接触到更多样化的训练数据，从而提高模型的鲁棒性和应对不同情况的能力。去除过短或过长的文本有助于确保训练数据的长度分布更加均衡，避免模型对特定长度的文本过度拟合。在机器学习中，去除过短或过长的训练数据通常是为了提高模型的性能和稳定性。通过删除相似的样本，可以减少数据冗余，使模型更专注于学习多样化和有代表性的信息。删除相似的样本有助于提高模型的泛化能力，使其在面对新数据时表现更好。这段代码将根据问题和答案的相似度过滤出唯一的行，是处理大量文本数据。
复制链接

扫一扫