情感分析badcase分析

最新推荐文章于 2024-11-13 16:24:41 发布

sarah倩

最新推荐文章于 2024-11-13 16:24:41 发布

阅读量4.6k

点赞数 2

文章标签：情感分析文本分类

本文链接：https://blog.csdn.net/qianyongismydream/article/details/90513004

版权

该博客分析了情感分析训练数据集，发现存在重复样本和超小簇问题，可能导致欠拟合。训练数据由酒店、财经和微博评论组成，经过word2vec+DBSCAN处理得到5861个类别。测试模型textcnn，准确率为0.8295，负面和中性的情感分类表现不佳，特别是负面召回率不足0.85。进一步抽样分析了不同情感组合的误判情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

训练数据集：有157637条，主要由酒店评论数据10000条、财经（主要是股市类）评论数据、微博评论数据（社会类、闲聊）

训练集数据存在重复：去重后有150875

训练集分布：正面：负面：中性占比为：

训练集使用word2vec+DBSCAN 后有5861个类，详细统计如下：

类别	定义	样本数	簇个数
大簇	超过3000个样本	3470	1
中等簇	大于1000小于3000	13775	8
小簇	大于100小于1000	76051	305
微小簇	大于32小于100	31986	565
超小簇	大于1小于32	31381	3514
单点	等于1	1474	1474