人工标签不准确的一种解决方案：PCA降维可视化筛选正样本

音无八重

已于 2023-11-22 15:16:21 修改

阅读量234

点赞数

分类专栏：自然语言处理（NLP）文章标签： python 数据分析分类算法自然语言处理

于 2023-11-22 15:15:42 首次发布

本文链接：https://blog.csdn.net/Rhiney_97/article/details/134554049

版权

自然语言处理（NLP）专栏收录该内容

4 篇文章 0 订阅

订阅专栏

背景

在实际的业务场景里，用会话文本构建模型（机器学习/深度学习）来做意图分类之类的任务时，经常会出现人工打标不够准确的问题，标签都不准确的话模型当然无法学习到有效信息了。这个问题真的非常头疼…除了与业务沟通修正标签以外（通常很慢），用现有的数据尽量修正正负样本也能有效的提升模型区分效果。

方法

介绍一种比较简要的方法，这里的分类任务我用的是给句子做二分类，用sentence2vec方法把句子转换成向量后，采用PCA降维成二维数据，做可视化图就可以看出人工打标下正负样本的分布。

人工打标结果虽然不准，但还是可以用作参考，比方说可视化图中几乎仅有正样本分布的区域，就是人工判断样本正负上绝对没有异议的样本，可以作为新的正样本。

PCA降维及可视化的核心代码：

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
pca = PCA(n_components=2) #PCA
result = pca.fit_transform(data_vecs)   #将句子向量(128维度)降维成二维向量，[1000, 128]->[1000,