机器学习 特征选择笔记 前言

最近学习特征选择,在此记录下学习过程,一是为加强理解,一是为学习交流。本人能力有限,望多多指教。

特征选择  前言

  • 什么是特征选择:本系列学习笔记所说的特征选择是指从已有特征中选择部分特征用以机器学习、数据挖掘,不涉及新特征的构建。
  • 特征选择的意义:有很多资料对特征选择的意义作了总结,不在赘述。在此举例说明下特征选择对算法的影响。
  1.   [1][2]不相关特征对c4.5算法影响很大,如果去除不相关特征,c4.5性能会得到很大提高
  2.   [3][4][5] 朴素贝叶斯对不相关特征不敏感,但是对冗余特征敏感,如果能降低特征冗余则会提高朴素贝叶斯分类性能。
  • 什么是相关特征:做一个通俗解释。如果特征X的出现对标签Y是有影响的,那么X是相关特征。也就是说X与Y不是独立分布的:P(Y=y|X=x)!=P(Y=y)
  • 强相关特征<=>如果特征X被移除会造成最终分类器性能降低,说明了特征的不可或缺性
  • 弱相关<=>如果特征X不是强相关,并且存在特征集S,使得分类器在S上的性能比在S+{X}(+表示并集操作)上的差。说明弱分类在某些情况下能够对分类做出贡献



[1]G.H. John, Enhancements to the data mining process, Ph.D. Thesis, Computer Science Department,
Stanford University, CA ( 1997).
[2]Thrun et al., The Monk’s problems: a performance comparison of different learning algorithms, Tech.
Rept. CMU-CS-91-197, Carnegie Mellon University, Pittsburgh, PA (1991).

[3]P Langley, W. Iba and K. Thompson, An analysis of Bayesian classifiers, in:Proceedings AAAI-94,
Seattle, WA (AAAI Press and MIT Press, 1992) 223-228.
[4]I.J. Good, The Estimation of Probabilities: An Essay on Modern Bayesian Methods (MIT Press,
Cambridge, MA, 1965).

[5] R. Duda and P Hart,Pattern Classification and Scene Analysis(Wiley, New York, 1973).




  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值