短文本分类

最新推荐文章于 2024-09-16 16:39:00 发布

chenglansky

最新推荐文章于 2024-09-16 16:39:00 发布

阅读量4.6k

点赞数

给text grocery 做个广告。

短文本分类因为特征少，无法得到好的效果。另外，文本短提供的信息有限，需要的样本大，无法通过人工标注来做（减少人工）。

如何扩展特征？

长文本分类方法。84%
尝试用Word2vec对tfidf大的词汇进行扩展。不可用。
尝试用lda来扩展特征。 86%. ------ 因为lda扩展的特征有限。一般一条微博只能扩到1到2个特征。
尝试使用bigram来做特征扩展，效果最好。基于libshorttext。 95% 以上。 ------ 就是textgrocery。

如何获取训练文本？

1.通过纯度较高的微博分类账户作为初始训练数据。
2.根据已有数据建立高招回分类器来扩展正例。
3.对已有正例的特征做皮尔逊相关系数排序。用排名较高的词汇进行solr搜索来获取正例。

更好的拟合现有数据？将训练集的badcase减少

对badcase中svm排序最高来扩展正例。计算badcase的相关系数，特征使用词+bigram。选取正例加入到训练集。

转至：https://segmentfault.com/a/1190000003939497

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。