关闭

机器学习:文本挖掘之特征选择

2158人阅读 评论(0) 收藏 举报
分类:

题目:下列哪个不属于常用的文本分类的特征选择算法?

卡方检验值

互信息

信息增益

主成分分析(不属于)

----------------------------------------------------------------------------------------------------------------

文本挖掘之特征选择

机器学习算法的空间、时间复杂度依赖于输入数据的规模。

维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法。分为两类:

特征选择(feature selection):从原始的d维空间中,选择为我们提供信息最多的k个维(这k个维属于原始空间的子集)——保留原空间信息

特征提取(feature extraction):将原始的d维空间映射到k维空间中(新的k维空间不输入原始空间的子集)——构造新空间

文本挖掘与文本分类的有关问题中,常采用特征选择方法。常见的四种特征选择方法:

1)DF(Document Frequency) 文档频率

DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性,DF的定义如下:

2)MI(Mutual Information)
互信息法

互信息法用于衡量特征词与文档类别直接的信息量。

如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。

相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

互信息法的定义如下:

继续推导MI的定义公式:

3)IG(Information Gain) 信息增益法

通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

4)CHI(Chi-square) 卡方检验法

利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的

如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

5)WLLR(Weighted Log Likelihood Ration)加权对数似然

6)WFO(Weighted Frequency and Odds)加权频率和可能性

好的特征应该有较高的文档频率

好的特征应该有较高的文档类别比例


0
0
查看评论

用Python开始机器学习(5:文本特征抽取与向量化)

文本特征抽取与向量化 TF-IDF 词频-反转文档频率
  • lsldd
  • lsldd
  • 2014-11-26 22:09
  • 47611

机器学习之文本特征选择

1.基本概念1.1 定义从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是从特征集T={t_1,…,t_s}中选择一个真子集T’={t_1,…,t_(s’ )},满足(s≪s’)。其中,s为原始特征集的大小,s^’为选择后的特征集大小。选择的准则是经特征选择后能有效提高文本准确...
  • FlySky1991
  • FlySky1991
  • 2017-02-15 20:51
  • 669

BAT机器学习面试题及解析(291-295题)

本系列作为国内首个AI题库,囊括绝大部分机器学习和深度学习的笔试面试题、知识点,可以作为机器学习自测题,也可以当做查漏补缺的资料库。七月在线AI题库(网页版及APP版)见“阅读原文”291.下面有关序列模式挖掘算法的描述,错误的是?(C)A AprioriAll算法和GSP算法都属于Apriori类...
  • T7SFOKzorD1JAYMSFk4
  • T7SFOKzorD1JAYMSFk4
  • 2017-12-25 00:00
  • 148

常用文本分类特征选择方法

常采用特征选择方法。常见的六种特征选择方法: 1)DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 2)MI(Mutual Information) 互信息法 互信息法用于衡量特征词与文档类别直接的信息量。 ...
  • tonny0718
  • tonny0718
  • 2016-03-22 00:04
  • 207

(7)文本挖掘(四)——特征选择

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根据预先设定好...
  • Fighting_No1
  • Fighting_No1
  • 2016-03-29 10:06
  • 3357

机器学习那些事——文本挖掘中的特征提取

机器学习当然包含很多的方面,但我只关心文本挖掘,那么机器学习和文本挖掘的关系是什么?文本挖掘的一般流程如下所示:第一步当然是,特征提取,这是一个文档降维的过程。首先明晰几个概念,特征提取、特征选择(特征选取)Feature Selection、特征抽取Feature Extraction。一般来说,...
  • u013709332
  • u013709332
  • 2015-09-14 11:06
  • 5188

机器学习:文本挖掘之特征选择

---------------------------------------------------------------------------------------------------------------- 下列哪个不属于常用的文本分类的特征选择算法? 卡方检验值 互信息 信息增...
  • ztf312
  • ztf312
  • 2016-03-14 21:47
  • 2158

《machine learning with spark》学习笔记--文本挖掘

We will introduce more advanced text processing techniques available in MLlib to work with large-scale text datasets.In this article, we will: Work th...
  • pangjiuzala
  • pangjiuzala
  • 2016-02-15 21:11
  • 2137

文本挖掘--文本特征选择-java实现

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。  文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根...
  • wang1127248268
  • wang1127248268
  • 2017-08-08 21:58
  • 426

机器学习系列:(三)特征提取与处理

版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 声明:版权所有,转载请联系作者并注明出处  http://blog.csdn.net/u013719780?viewmode=contents ...
  • cjianwyr
  • cjianwyr
  • 2017-02-07 10:42
  • 2316
    个人资料
    • 访问:673532次
    • 积分:8893
    • 等级:
    • 排名:第2561名
    • 原创:284篇
    • 转载:96篇
    • 译文:19篇
    • 评论:135条
    博客专栏