情感分析badcase分析

该博客分析了情感分析训练数据集,发现存在重复样本和超小簇问题,可能导致欠拟合。训练数据由酒店、财经和微博评论组成,经过word2vec+DBSCAN处理得到5861个类别。测试模型textcnn,准确率为0.8295,负面和中性的情感分类表现不佳,特别是负面召回率不足0.85。进一步抽样分析了不同情感组合的误判情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)

训练集数据存在重复:去重后有150875

训练集分布:正面:负面:中性  占比为:

                     训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:

</
类别 定义 样本数 簇个数  
大簇 超过3000个样本 3470 1  
中等簇 大于1000小于3000 13775 8  
小簇 大于100小于1000 76051  305  
微小簇 大于32小于100 31986 565  
超小簇 大于1小于32 31381 3514  
单点 等于1 1474 1474  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值