1.特征选择:特征很多,但是只有部分特征与当前任务有关,所以要选出来啦
2.剔除的特征:无关特征
冗余特征:冗余特征具有两面性,一方面去除他们会减轻学习负担,另一方面如果某个冗余特征恰好完成了学习任务的‘中间概念’,则有益。eg求体积。底面积相对长和宽为冗余
3.子集搜索:
【1】用先验知识来选择特征子集,可能没办法考虑周全
【2】假设没先验知识,只能暴力枚举,暴力枚举转化为树去解决
【3】产生两个问题;如何搜索p248/如何评价
4.子集评价;信息熵
【1】信息熵的来源:是概率事件的所带来信息的期望,代表事件的不确定性。
【2】信息的衡量之所以定义-log(pi),一方面要求信息量随概率单减(理解一下:概率越小所带来的信息量越多)另一方面信息量的可加性,两独立事件的所带来的信息量为他们各自的信息量之和
【3】把数据集想成一个抽取样本的随机事件,抽取一个样本带来的信息量去解决。
【4】注意:信息增益越大p249,意味着用特征子集分类前后信息量差值越大,特征子集评价越高
5.过滤式选择
【1】定义:先特征选择再训练学习器
【2】relief 特征选择方法的思想:特征本来就是用来分类的,所以可以用距离取度量特征。异类距离比同类距离越大,说明属性对样本的区分能力越高。
【3】此方法是基于所有的样本点计算得出的来的(大致体会一下数据流)
【4】relief的多分类的改进p250
6.包裹式选择
【1】包裹一词体现:直接将分类器的误差作为评价标准,为学习器选择最有利于性能的特征子集
【2】典型包裹式特征选择方法:lvw大致流程,首先随机参生特征子集,其次带入学习器并求出误差,迭代循环,求出误差最小的特征子集
7.交叉验证法
【1】确实检验学习器的性能时,用训练集计算肯定不太好,不代表泛化能力
【2】所以将数据分为两部分:训练集和验证集
8.嵌入式选择
【1】特征选择过程和学习器训练过程融为一体 eg .lasso即l1范数正则化
【2】l1正则化问题可以通过近端梯度下降法来解决p253
近端一词体现该方法是近端梯度下降法的改进
9.问题
【1】枚举和算法树之间到底存在什么关系
【2】信息熵评价子集真的有效吗?概率又没有变
【3】拉斯维加斯方法和蒙特卡洛方法,理解有误的
【4】近端梯度下降法最后一步的过程并未推导,习题11.8