文本向量化

最新推荐文章于 2025-03-17 11:19:54 发布

转载最新推荐文章于 2025-03-17 11:19:54 发布

· 977 阅读

·

0

·

机器学习专栏收录该内容

5 篇文章

订阅专栏

最近按照自己的计划和步骤，准备接触机器学习了。其中一个非常重要的就是文本分析，而第一道管卡就是文本的向量化。这里首先应用碗豆先生的博客，这个里面对于文本的分析有了一个很好的开始。另外一个有用的博客是周公与夜的博客。

这里首先阐述文本特征值提取的几种方法（引用周公的博客内容）：

常见的四种特征选择方法如何计算。

　　1）DF(Document Frequency)

DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性，DF的定义如下：

　　DF的动机是，如果某些特征词在文档中经常出现，那么这个词就可能很重要。而对于在文档中出现很少(如仅在语料中出现1次)特征词，携带了很少的信息量，甚至是"噪声"，这些特征词，对分类器学习影响也是很小。

　　DF特征选择方法属于无监督的学习算法(也有将其改成有监督的算法，但是大部分情况都作为无监督算法使用)，仅考虑了频率因素而没有考虑类别因素，因此，DF算法的将会引入一些没有意义的词。如中文的"的"、"是"， "个"等，常常具有很高的DF得分，但是，对分类并没有多大的意义。

　　2）MI(Mutual Information)

　　互信息法用于衡量特征词与文档类别直接的信息量，互信息法的定义如下：

　　继续推导MI的定义公式：

　　从上面的公式上看出：如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向"低频"的特征词。相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。

　　3）IG(Information Gain)

　　信息增益法，通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。

信息增益的定义如下：

依据IG的定义，每个特征词t_i的IG得分前面一部分：计算值是一样，可以省略。因此，IG的计算公式如下：

IG与MI存在关系：

因此，IG方式实际上就是互信息与互信息加权。

4）CHI(Chi-square)

CHI特征选择算法利用了统计学中的"假设检验"的基本思想：首先假设特征词与类别直接是不相关的，如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。CHI的定义如下：

对于一个给定的语料而言，文档的总数N以及C_j类文档的数量，非C_j类文档的数量，他们都是一个定值，因此CHI的计算公式可以简化为：

CHI特征选择方法，综合考虑文档频率与类别比例两个因素

5）WLLR(Weighted Log Likelihood Ration)

WLLR特征选择方法的定义如下：

计算公式如下：

6)WFO（Weighted Frequency and Odds）

最后一个介绍的算法，是由苏大李寿山老师提出的算法。通过以上的五种算法的分析，李寿山老师认为，"好"的特征应该有以下特点：

好的特征应该有较高的文档频率
好的特征应该有较高的文档类别比例

WFO的算法定义如下：

如果：

否则：

不同的语料，一般来说文档词频与文档的类别比例起的作用应该是不一样的，WFO方法可以通过调整参数，找出一个较好的特征选择依据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。