白话特征选择系列---开篇

[size=medium] 孟子:“人之初,性本善”。
荀子:“人之初,性本恶”。
你:?
当我们初次见到一个人的时候,我们往往会根据一个人的外貌来进行一下判定,这个人长的面善,应该是个好人;瞧这个人长的这个样子,一看就不是什么好人。但是如果是一个相貌平平,毫无所知的陌生人,我们多半会回答这个人我不认识,不知道是好人还是坏人,因为这样回答最安全正确。而当他告诉我们名字时,如果我们听过他以前做过好事,那么我们多半会觉得他是好人;反之如果一个人进过监狱,我们一般会认定他是坏人。
上面介绍的是人的好坏分类,文本分类也是类似情况,只不过被分类的对象变成了文本(文章|书籍等等)。文本分类应用的具体应用方面有很多,比如判断一篇文章是武侠类的还是言情类的,传播的是正能量还是负能量(禁书),需不需要方舟子老师来打假看看是不是找人代笔的。
人脑相对于电脑来说是很高级的,我们在阅读文章分类的时候有自己的感性认识,结合自己已经掌握的知识进行汇总,然后分类。文章的段落安排,上下文信息对于人的文本分类都是很重要的。但是人对文本的这种感性认识,如何让计算机理解目前还是一个难题。我们需要找到一种方法来让计算机能够理解和表示文本。
把文本表示成计算机可以理解的形式,就是文本表示。目前文本表示模型主要是Gerard Salton和McGill于1969年提出的向量空间模型(VSM)。向量空间模型的基本思想是把文档简化为特征项的权重为分量的向量表示,权重用词频表示.词频分为绝对词频和相对词频.绝对词频,即用词在文本中出现的频率表示文本;相对词频,即为归一化的词频,其计算方法主要运用TF-IDF公式。
由于文本数据的半结构化甚至于无结构化的特点,当用特征向量对文档进行表示的时候,特征向量通常会达到几万维甚至于几十万维.但是大家想一下,大部分文章仅仅千余字,包含的词至多几百,为了表示这样一个文本,却要使用上万维的向量,这是对存储资源和计算能力很大的浪费。所以寻求一种有效的特征降维方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中至关重要的问题。
下面我就几种特征选择方法进行介绍。[/size]
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值