特征选择

本文基于周志华老师的《机器学习》中的内容做知识点总结

使用特征选择的原因:

  1. 解决维度灾难:只挑选重要特征;
  2. 去除不相关特征,降低学习任务的难度。
    1) 无关特征:与当前学习任务无关的特征
    2)冗余特征:包含的信息可以从其他特征中衍生出来

子集搜索:

  1. 前向搜索:从特征集合中挑选一个最优特征,放入子集;然后在剩余特征中选择一个加入子集,选择最优组合来作为这一轮的子集;当选择到的特征子集不如上一轮的特征子集时,则停止搜索。
  2. 后向搜索:每次从特征集合中挑选一个无关特征,从集合中排除。
  3. 前向与后向结合:每一轮增加相关特征,同时减少无关特征。

子集评价:可以使用信息增益来评价子集的好坏。

特征选择

1. 过滤式方法
先进行特征选择再训练学习器。
2. 包裹式
根据随机选取的特征子集训练得到学习器,以学习器的性能来反应特征子集的性能。开销大。
3. 嵌入式
与前两者不同,嵌入式将特征选择与学习器训练融合,在学习器训练过程中进行特征选择。在训练过程中使用正则化就是一种常用的特征选择的过程。

正则化项天然地能够进行特征选择。例如在线性回归模型中,考虑平方误差加上正则项作为损失函数。正则项使用不同的形式:
1) L2范数:向量的平方和,对应损失函数即岭回归。更偏向于选择数值均匀分布的向量,即每个位置的特征都对模型产生影响。
2) L1范数:向量的绝对值之和,对应损失函数即Lasso(最小绝对收缩选择算子),更偏向于选择稀疏的向量,即向量中非零值更少。
3) L0范数:其实最好地进行稀疏约束的应该是L0范数,因为其计算的就是向量中非零值的个数。但是因为这是一个非凸函数,在优化中不好求解,所以常使用L1范数来做近似。

特征维度很大时如何提取特征:
1)特征选择:相关性分析(卡方检验,信息增益);控制变量法(选择一个特征,加入原有模型,比较特征对模型提升的效果);损失函数中加入l1、l2范式防止过拟合
2)特征提取:PCA, LDA, 小样本可以采用SVD。

稀疏表示
上述讲的稀疏性都是模型的稀疏性,这样能够更好地简化模型,减少计算量。但是通常我们训练过程中,样本对应的特征向量稀疏的,例如在文本分析中,如果我们规定一个特征是一个字/词,特征对应的值是否非零取决于文本中是否包含这个字/词,这种情况下我们得到的特征向量通常是高度稀疏的,这使得问题变得线性可分。这也是SVM能在文本分析中效果较好的原因。

稀疏学习中常常使用到字典学习,即将原始向量通过特征映射转化为一个更低维的稀疏向量,同时达到了降维与稀疏的目的。在字典学习的目标函数中也会引入转化后向量的L1范数,目的就是能够让学习到的向量更加稀疏。

在图像分类任务中通常使用字典学习,因为原始图像是一个d*d的稠密矩阵,像素点很多,例如d取100时对应就有10000(100*100)维特征,特征维度很大,不方便进行及其学习,而很多相邻的像素点包含了大量的冗余信息, 这就使得能够通过字典学习将原始图像转化为一个低维的稀疏表示并且能够很好地表达原始图像的特征信息。

压缩感知:
根据压缩后的数据重构原始信号,是压缩感知需要解决的问题。协同过滤中的矩阵补全是一个典型的压缩感知的例子。例如在推荐中,已知各个用户对其已经购买的商品/已经听过的音乐的评价,形成一个稀疏的评分矩阵,需要从中还原出用户对其他所有商品/音乐的评分,这也是一个压缩感知的过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值