文本特征选择之互信息和卡方

参考:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html

在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:

互信息

  一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下:

  应用到文本特征选择:

  U、C都是二值随机变量,当文档包含词项t时,U的取值为 et=1 et=1,否则 et=0 et=0;当文档属于类别c时,C的取值 ec=1 ec=1,否则 ec=0 ec=0,用最大似然估计时,上面的概率值都是通过统计文档中词项和类别的数目阿里计算的。于是实际计算公式如下:  

  其中 Nxy Nxy表示 x=et x=et y=ec y=ec情况下对应的文档数目,比如 N10 N10表示包含词项t(此时 et=1 et=1)但不属于类别c(此时 ec=0 ec=0)的; N1.=N10+N11 N1.=N10+N11表示所有包含词项t的文档数目。 N.1=N11+N01 N.1=N11+N01表示所有属于类c的文档数目, N=N00+N01+N10+N11 N=N00+N01+N10+N11表示所有文档数目。

  举例:路透社的语料库Retuters-RCV1的一个类别poultry及词项export。类别和词项的四种组合的文档数如下:  

  计算类别poultry和词export之间的类别的互信息为:  

  我们可以对每一个类计算各个词项与其的互信息,并选取值最大的k个词项,当然有可能两个类会选取相同的特征词,去重一下即可。

  互信息度量的是词项是否被类别包含所带来的信息量,如果某个词项均匀的分布在各个类别,那么 I(U;C)=0 I(U;C)=0,当某词项总是出现在当前类别,而在其他类别中很少出现时, I(U;C) I(U;C)就会比较大。使用互信息能够保留具有信息含量的词项的同时,去掉那些没有信息含量的词项,从而提高正确率。

X2 X2统计量

  在统计学中, X2 X2统计量经常用来检测两个事件的独立性。在特征选择中,两个事件分别指词项的出现与类别的出现,计算公式如下:

  依然是前面的类别poultry及词项export的例子,我们有

  其他的类似计算,得到:  

  

  查卡方的分布表,置信度为0.999的卡方临界值是10.83,也就是当卡方值 X2(D,t,c)>10.83 X2(D,t,c)>10.83时,我们有99.9%的把握,t与c不独立,这里284显然大于10.83,因此我们认为poultry与export不独立,也就是export对poultry是一个强特征。同样我们计算所有词的卡方值,取值最大的前k个词项作为特征词。

  卡方是基于显著统计性来选择特征的,因此他会比MI选出更多的罕见词项,而这些词项对分类并不靠谱。

  虽然卡方和互信息的出发点不同,但它们的准确性却相差不多,因为大部分文本分类问题中,只有很少的强特征,大部分都是弱特征。只要所有的强特征和很多弱特征被选出,那么分类的准确率就不会低。

  另外上面介绍的两种特征选择主要用于文本的分类等用监督学习,而不适宜聚类等无监督学习,因为聚类我们不知道每篇文档属于的类别,也就无从计算互信息和卡方值,这时一般使用TF-IDF作为特征词的选取方法

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
文本情感分析的特征表示可以分为以下几个步骤: 1. 数据预处理:将原始文本数据进行清洗、分词、去除停用词等操作,得到干净的文本数据。 2. 特征提取:从预处理后的文本数据中提取出用于情感分析的特征,比如词频、TF-IDF、词向量等。常用的特征提取方法包括: - 词袋模型:将文本中的每个词看做一个独立的特征,用词频或者TF-IDF作为特征值。 - N-gram模型:将相邻的N个词作为一个特征,用词频或者TF-IDF作为特征值。 - 词向量模型:将每个词映射到一个高维空间中的向量,用词向量作为特征值。 3. 特征选择:对提取出的特征进行筛选,去除冗余或者无用的特征,提高模型的泛化能力和效果。常用的特征选择方法包括: - 卡方检验:统计每个特征和类别之间的卡方值,选取卡方值较大的特征。 - 信息增益:计算每个特征对分类的贡献度,选取信息增益较大的特征。 - 互信息:计算每个特征和类别之间的互信息,选取互信息较大的特征。 4. 特征表示:将经过特征提取和特征选择特征表示成矩阵或向量形式,用于机器学习模型训练和预测。常用的特征表示方法包括: - 稀疏矩阵:使用稀疏矩阵表示文本特征,节约内存空间。 - 密集矩阵:使用密集矩阵表示文本特征,适合维度较小的特征。 - 向量化:使用向量表示文本特征,适合维度较大的特征。 以上是文本情感分析特征表示的流程,实现过程需要根据具体的任务和数据进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值