文本分类在选择机器学习模型时的特征工程

最新推荐文章于 2021-04-20 12:20:16 发布

一Lu一Qiang

最新推荐文章于 2021-04-20 12:20:16 发布

阅读量382

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_40634547/article/details/84584005

版权

机器学习与深度学习不同，机器学习需要自己构建特征向量，并且不局限于词，这里看到一篇文章讲到一些机器学习构建词向量如下：

1.向量空间模型

2.LDA的主题词特征提取

3.中文多类别情感分类模型中特征选择方法。

这篇文章设计了基于朴素贝叶斯分类器、使用布尔权重的中文三类别和五类别情感分类模型。

比较常用的特征选择方法有：文档频率(Document Frequency，DF)，信息增益(Information Gain， IG)，互信息(Mutual information，MI)，卡方统计(Chi—Squared， CHI)，项频率(Term Frequency，TF)等。DF过滤的方法是假设DF较小的特征对分类的结果影响较小，从而过滤DF值小的特征：IG是通过计算特征的分类能力，选择分类能力较强的特征；MI是计算特征和类的相关度，但是计算出来的低频词的MI通常较高；CHI是为每个词计算它与类别的CHI值， CHI值越大越相关。

Yang等¨¨的实验观察了这4种特征选择方法对英文传统主题分类的影响，发现信息增益和卡方统计的效果最好，而 MI因为对偏向低频特征并且对概率估计误差敏感，效果最差。文献[12]比较了DF和TF在文本分类中的表现，发现 TF比DF要更有效，特别是在特征规模比较小的时候。

情感分类结果是：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本分类在选择机器学习模型时的特征工程

机器学习与深度学习不同，机器学习需要自己构建特征向量，并且不局限于词，这里看到一篇文章讲到一些机器学习构建词向量如下：1.向量空间模型2.LDA的主题词特征提取3.中文多类别情感分类模型中特征选择方法。这篇文章设计了基于朴素贝叶斯分类器、使用布尔权重的中文三类别和五类别情感分类模型。比较常用的特征选择方法有：文档频率(Document Frequency，DF)，信息增益(In...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。