关于特征的选择问题:
- ①在特征选择方面,一般需要寻找有用的信息,基本的思想,其实自己想想也可以想出来,就是要选择尽量有区分度的信息,比如一个物品的数据对于区分两种类别没有太大帮助,那么就会认为区分度不高。比如狗的颜色是偏黄还是偏白来区分狗的类别,这个属性特征虽然也确确实实是狗的属性之一,但是对于区分狗的类别这项任务来说,这个属性特征的共享可能并不会非常大(比如需要区分金毛和吉娃娃等),因为任何狗都完全有可能达到这两种颜色。所以要选择尽量有一些区分度的信息。
- ②要尽量避免重复的信息,比如,两点的距离,可以用厘米表示也可以用米来表示,虽然是两个不同的数字,但其实之间只是一个线性的换算关系,这个就是重复信息,对于类别的区分没有太大作用。
- ③避免复杂的信息:比如描述点,可以用经纬度,也可以用距离,但是经纬度的计算过于复杂,一般推荐使用简单的距离信息。(即人为先进行一步特征工程之后的信息)。
- 所以总结来说,特征工程中最最基础的一个部分就是三个避免:①避免无意义的信息,②避免重复信息,③避免复杂的信息。这样才能够最终得到比较快的学习速度,最重要的是提升正确率,但是话还要说回来,如果独立的特征越多,肯定是越有利于最终的分类的,所以在避免一些非独立信息的同时,尽力寻找一些独立的特征,使得特征向量尽可能全面的话,对于最终的结果和正确率都是有非常积极的意义的。