无监督对话数据清洗利器：Data Purification Framework_对话记录怎么清洗成可训练的数据-CSDN博客

本文链接：https://blog.csdn.net/heyc861221/article/details/80130947

本文介绍了Data Purification Framework（DPF），一种无监督的数据清洗方法，尤其适用于聊天机器人对话数据的清洗。通过不断迭代训练匹配模型，删除不匹配的数据，最终得到高质量的对话数据集。DPF在小黄鸡数据上清洗后，模型匹配度显著提升，可用于seq2seq+Attention模型的训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者/吴金龙

现在一提到聊天机器人，大家就会想起各种算法模型，端到端、生成式、深度增强学习。有一种给我足够多足够好的数据，我就能用算法突破图灵测试的风范。可恨的是，就是没够多够好的数据。相对于英文，中文可用的公开数据集少之又少。

在聊天机器人里，可用的公开对话数据就更少了，比如闲聊类的也就小黄鸡、华为微博数据，而且这些数据也都还不够好。不论是公开数据还是自己抓的各种数据，使用前的清洗都是必须的。清洗数据是个苦活，数据量大时就算投入大量人力也未必有好的产出。本文介绍爱因互动正在使用的一种数据清洗方法，我们称之为Data Purification Framework（简称DPF）。DPF是无监督的，所以基本不需要人力投入，但最终清洗效果还不错。虽然本文名为对话数据清洗，但此方法其实可以用在很多其他场景。

数据清洗框架：DPF

DPF的理念很简单，利用不靠谱的数据训练一个模型，这个模型在训练集上准确度通常都很低（如果训练集上已经完美拟合，那这个方法就不能直接用了）。用训练好的模型把最不靠谱的那些数据（预测与实际差的最远）删掉，然后利用剩下的数据训练新的模型，之后再用新模型把剩下数据里最不靠谱的一些数据删掉，如此重复，直到模型在训练集上达到较高的准确度。这时候被筛完剩下的数据可能比较少了。

为了召回一些被早期模型误过滤掉的样本，我们把最新的模型应用到原始的全量数据上，这样去除最不靠谱的数据后会留下更多的数据用于接下来的迭代。之后的迭代逻辑和前面的相同，利用模型清除最不靠谱的数据࿰