特征选取

对于分类,特征选取是预处理的过程


总体流程:1.特征选取 2.训练 3.分类

特征选取的选择包含选取的对象、特征抽取的方法两个要素


对于特征的建立,其实是一个构建向量问题,一个特征向量,会应用于所有的文章对象,而在每一篇文章中,都会有一个权值向量与之对应,而决定这篇文章如何分类,对于分类器来说就是一个利用权值进行计算的过程。


这个过程中的一些主要问题是:

1.找到一个能用于分类的特征向量和语料库(包含了分类结果);

2.通过计算方法得出该特征向量对应于每篇文章权值向量(构建向量w=(w1,w2...,wn,c)其中c为分类结果,其实就是特征向量的抽取过程);

3.分类器根据已有的权值向量、特征向量计算测试文章的结果c.


对于文章主题分类和情感分类,在特征选取上的主要区别在特征向量的构建元素选取上,主题分类当前多以词语为分类的特征向量,主要使用的方法就是利用分类词典的全部词语作为特征,通过一些方法去除掉一些元素,再使用特征向量的抽取方法抽取一些信息出来,最后使用分类器进行分类。情感分类则使用情感词典,用特种抽取方法抽取出信息,与文章分类相比,情感分类和主题分类的主要区别就是其分类的参考物更多以情感词汇为主,所以特征数量会小于文章分类的特征数量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值