文本分类在选择机器学习模型时的特征工程

机器学习与深度学习不同,机器学习需要自己构建特征向量,并且不局限于词,这里看到一篇文章讲到一些机器学习构建词向量如下:

1.向量空间模型

2.LDA的主题词特征提取

3.中文多类别情感分类模型中特征选择方法。

这篇文章设计了基于朴素贝叶斯分类器、使用布尔权重的中文三类别和五类别情感分类模型。

比较常用的特征选择方法有:文档频率(Document Frequency,DF),信息增益(Information Gain, IG),互信息(Mutual information,MI),卡方统计(Chi—Squared, CHI),项频率(Term Frequency,TF)等。DF过滤的方法是假设DF较小的特征对分类的结果影响较小,从而过滤DF值小 的特征:IG是通过计算特征的分类能力,选择分类能力较强 的特征;MI是计算特征和类的相关度,但是计算出来的低频词的MI通常较高;CHI是为每个词计算它与类别的CHI值, CHI值越大越相关。

Yang等¨¨的实验观察了这4种特征选择方法对英文传 统主题分类的影响,发现信息增益和卡方统计的效果最好,而 MI因为对偏向低频特征并且对概率估计误差敏感,效果最 差。文献[12]比较了DF和TF在文本分类中的表现,发现 TF比DF要更有效,特别是在特征规模比较小的时候。

 

情感分类结果是:

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值