使用Python的文本挖掘的特征选择/提取

最新推荐文章于 2024-08-23 16:53:34 发布

aohun0743

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量1.9k

点赞数 4

文章标签： python 人工智能

原文链接：http://www.cnblogs.com/YSPXIZHEN/p/11440966.html

版权

本文探讨了在文本挖掘中特征选择和提取的重要性。介绍了概率定义、DF、MI、IG、CHI和WLLR等特征选择方法，并讨论了如何利用这些方法在Python中进行文本特征的选择。此外，还提到了特征提取在构建向量模型和短文本分析中的应用，如词袋模型和隐含主题模型。

摘要由CSDN通过智能技术生成

在文本挖掘与文本分类的有关问题中，文本最初始的数据是将文档表示成向量空间模型的一个矩阵，而这个矩阵所拥有的就是不同的词，常采用特征选择方法。原因是文本的特征一般都是单词(term)，具有语义信息，使用特征选择找出的k维子集，仍然是单词作为特征，保留了语义信息，而特征提取则找k维新空间，将会丧失了语义信息。

当然，另一方面，在处理文本时，对于我们来说，已经拥有将不同词在低维空间上总结归纳的能力，知道这些词的联系和区别，但是对于计算机来说，它们怎么知道这些的联系呢？也就是它们根本还不拥有这些降维的能力，那么就要依靠我们告诉它们这个方法，这个工具就是SVD，其核心思想就是：将这些不同的词都映射到低维空间中去，在低维空间中去总结，去发现这些词的内在联系，一旦这些内在联系建立了，那么我们就知道了这些文档的内在联系了。

特征选择

对于一个语料而言，我们可以统计的信息包括文档频率和文档类比例，所有的特征选择方法均依赖于这两个统计量，目前，文本的特征选择方法主要有：DF, MI, IG, CHI，WLLR,WFO六种。

概率定义简述

　　　　p(t):一篇文档x包含特征词t的概率。

　　　　:文档x不属于C_i的概率。

　　　　p(C_i|t):已知文档x的包括某个特征词t条件下，该文档属于C_i的概率

　　　　: 已知文档属于C_i条件下，该文档不包括特征词t的概率

类似的其他的一些概率如p(C_i), ，等，有着类似的定义。

为了估计这些概率，需要通过统计训练样本的相关频率信息，如下表：

其中：

　　　A_ij: 包含特征词t_i，并且类别属于C_j的文档数量 B_ij: 包含特征词t_i，并且类别属于不C_j的文档数量

　　　C_ij：不包含特征词t_i，并且类别属于C_j的文档数量 Dij：不包含特征词t_i，并且类别属于不C_j的文档数量

　　　A_ij + B_ij: 包含特征词t_i的文档数量 C_ij+ D_ij：不包含特征词t_i的文档数量

　　　A_ij + C_ij：C_j类的文档数量数据 B_ij + D_ij：非C_j类的文档数量数据

　　　A_ij + B_ij+ C_ij+ D_ij= N :语料中所有文档数量。

有了这些统计量，有关概率的估算就变得容易，如：

　　　p(t_i) = (A_ij + B_ij) / N; p(C_j) = (A_ij + C_ij) / N;

　　　 p(C_j|t_j) = A_ij / (A_ij + B_ij)

类似的一些概率计算可以依照上表计算。

常见的四种特征选择方法计算方法

1）DF(Document Frequency)

DF是统计特征词出现的文档数量，用来衡量某个特征词的重要性，DF的定义如下：

DF的动机是，如果某些特征词在文档中经常出现，那么这个词就可能很重要。而对于在文档中出现很少(如仅在语料中出现1次)特征词，携带了很少的信息量，甚至是"噪声"，这些特征词，对分类器学习影响也是很小。

DF特征选择方法属于无监督的学习算法(也有将其改成有监督的算法，但是大部分情况都作为无监督算法使用)，仅考虑了频率因素而没有考虑类别因素，因此，DF算法的将会引入一些没有意义的词。如中文的"的"、"是"， "个"等，常常具有很高的DF得分，但是，对分类并没有多大的意义。

2）MI(Mutual Information)

　　互信息法用于衡量特征词与文档类别直接的信息量，互信息法的定义如下：

　　继续推导MI的定义公式：

　　从上面的公式上看出：如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向"低频"的特征词。相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。

3）IG(Information Gain)

　　信息增益法，通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。

信息增益的定义如下：

依据IG的定义，每个特征词t_i的IG得分前面一部分：计算值是一样，可以省略。因此，IG的计算公式如下：

IG与MI存在关系：

因此，IG方式实际上就是互信息与互信息加权。

4）CHI(Chi-square)

CHI特征选择算法利用了统计学中的"假设检验"的基本思想：首先假设特征词与类别直接是不相关的，如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。CHI的定义如下：

对于一个给定的语料而言，文档的总数N以及C_j类文档的数量，非C_j类文档的数量，他们都是一个定值，因此CHI的计算公式可以简化为：

CHI特征选择方法&#

最低0.47元/天解锁文章

aohun0743

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
使用Python的文本挖掘的特征选择/提取

在文本挖掘与文本分类的有关问题中，文本最初始的数据是将文档表示成向量空间模型的一个矩阵，而这个矩阵所拥有的就是不同的词，常采用特征选择方法。原因是文本的特征一般都是单词(term)，具有语义信息，使用特征选择找出的k维子集，仍然是单词作为特征，保留了语义信息，而特征提取则找k维新空间，将会丧失了语义信息。当然，另一方面，在处理文本时，对于我们来说，已经拥有将不同词在低维空间上总结归纳...
复制链接

扫一扫