怎样区分好用的特征?

什么是数据的特征?

比如区分金毛和吉娃娃,他们都是狗狗,他们有的特征为:身高、耳朵大小、毛素、体重大小等等,这些定性的描述就是特征

 

为什么区分好用的特征?

 

机器在学习过程中,需要对数据维度降维,

(1)提高机器学习速度,较少过拟合

(2)使模型泛化能力更强

(3)增强对特征和特征值之间的理解

 

区分特征的注意事项?

1.定性的特征,需要转化为定量的特征才能使用

2.方差小的数据,没什么用,多选择离散程度大的变量

3.去无意义、重复性、避免复杂的数据

 

区分特征的方法?

Filter方法:

主要思想是:对每一维的特征进行“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重进行排序。主要的方法是:Chi-squared test(卡方检验),information gain(信息增益),correlation coefficient scores(相关系数)

Wrapper方法:

其主要思想是:将子集的选择看作是一个搜索寻优问题,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题,这里有很多的优化算法可以解决,齐次是一些启发的优化算法,如GA,PSO,DE,ABC等。主要方法有:recursive feature elimination algorithm(递归特征消除算法)

Embedded方法:

其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。主要方法有:正则化,岭回归就是在基本线性回归的过程中加入了正则项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值