训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)
训练集数据存在重复:去重后有150875
训练集分布:正面:负面:中性 占比为:
训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:
类别 | 定义 | 样本数 | 簇个数 | |
---|---|---|---|---|
大簇 | 超过3000个样本 | 3470 | 1 | |
中等簇 | 大于1000小于3000 | 13775 | 8 | |
小簇 | 大于100小于1000 | 76051 | 305 | |
微小簇 | 大于32小于100 | 31986 | 565 | |
超小簇 | 大于1小于32 | 31381 | 3514 | |
单点 | 等于1 | 1474 | 1474 |