python文本分类特征选择_文本分类特征选择方法

特征选择目的:

选出能够很好反映文本内容的词,

以降低文本向量空间维数,

提高分类

器的分类效率和分类精度。

特征选择方法:

1

基于独立评估的

构造一个评估函数,

利用评估函数对特征集合的每个特征进行独

立评估,

每个特征获得一个评估值,

然后按照评估值从大到小的顺序对特征集合的特征进行

排序,

最后按照预先设定的阀值或预先设定的特征选择的个数选取最佳特征子集作为特征选

择的结果。

2

基于综合评估的:

从特征集合中找出较少的描述这些特征的综合指标,

然后利用该综

合指标对特征集合进行特征选择操作。

常用的特征选择方法:

文档频率

DF

信息增益

IG

互信息

MI

x2

统计量

CHI

等。

1.

文档频率(

DF

:在训练语料库中出现的特征词条的文档数。

DF(ti,cj)=

类别

cj

中包含特征词条

ti

的文档数

/

类别

cj

的总文档数

基本思想:

首先设定最小和最大文档频率阀值,

然后计算每个特征词条的文档频率,

如果该特征词条的文档频率大于最大文本频率阀值或小于最小文档频率阀值,

则删

除该词条,否则保留。

(文档频率过小,表示该特征词条是低频词,没有代表性;

相反如果特征词条文档频率过大,则表示该特征词条没有区分度,这样的特征词条

对分类都没有多大影响,所以删除它们不会影响分类效果。

2

、信息增益(

IG

熵增原理定义:

在孤立热力系所发生的不可逆微变化过程中,

熵的变化量永远大于系统从热源吸收的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值