[机器学习]特征选择问题

关于特征的选择问题:

  • ①在特征选择方面,一般需要寻找有用的信息,基本的思想,其实自己想想也可以想出来,就是要选择尽量有区分度的信息,比如一个物品的数据对于区分两种类别没有太大帮助,那么就会认为区分度不高。比如狗的颜色是偏黄还是偏白来区分狗的类别,这个属性特征虽然也确确实实是狗的属性之一,但是对于区分狗的类别这项任务来说,这个属性特征的共享可能并不会非常大(比如需要区分金毛和吉娃娃等),因为任何狗都完全有可能达到这两种颜色。所以要选择尽量有一些区分度的信息。
  • ②要尽量避免重复的信息,比如,两点的距离,可以用厘米表示也可以用米来表示,虽然是两个不同的数字,但其实之间只是一个线性的换算关系,这个就是重复信息,对于类别的区分没有太大作用。
  • ③避免复杂的信息:比如描述点,可以用经纬度,也可以用距离,但是经纬度的计算过于复杂,一般推荐使用简单的距离信息。(即人为先进行一步特征工程之后的信息)。
  • 所以总结来说,特征工程中最最基础的一个部分就是三个避免:①避免无意义的信息,②避免重复信息,③避免复杂的信息。这样才能够最终得到比较快的学习速度,最重要的是提升正确率,但是话还要说回来,如果独立的特征越多,肯定是越有利于最终的分类的,所以在避免一些非独立信息的同时,尽力寻找一些独立的特征,使得特征向量尽可能全面的话,对于最终的结果和正确率都是有非常积极的意义的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值