规则化和模型选择

一、交叉验证

训练集S,模型集合M

1、简单交叉验证:70%S训练M,训练出参数,求得假设函数h,在30%S上得到相应的经验错误,选择最小的最为最好的模型

2、k折交叉验证:将交叉验证的测试集/k,每个模型训练k次,测试k次,得到的错误率/k。一般k取10。

3、留一交叉验证:每次只留一个样例作为测试。(用于数据稀疏的情况)

二、特征选择

严格来讲也是模型选择的一种

1、为什么要做特征选择
在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。
2、特征选择的确切含义
将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
3、特征选取的原则

获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点(

特征选择常用算法综述

特征工程是什么

1、前向搜索:每次增量的从剩余未选中的特选出一个加入特征集中,待达到阈值或者n的时候,从所有的特征集中选出错诶率最小的。(错误率利用交叉验证来得到)

2、后向搜索:既然有增量增加,那么也会有增量减少,后者就成为后向搜索。

3、过滤特征选择:针对每一个特征 ,i从1到n,计算相对于类别标签y的信息量S(i),得到n个结果,然后将n个S(i)从大到小排名,输出前k个特征。复杂度为O(n)。

(1)求S(i)

1)互信息公式     

               (注:log后面的三项概率都是由训练集上得到的)

      若是离散值,非常适用,若不是离散值,那么用逻辑回归方法将连续值变成离散值。推广到多个也适用。

2)KL距离

               

      由KL距离,MI衡量的是和y的独立性。如果和y独立(),那么KL距离为0,也就是说和y不相关,可以去除。相反,若和y关系密切,那么MI的值会很大。

(2)求k

      用交叉验证的方法。

三、贝叶斯统计和规则化

目的:寻找更好的方法来减少过拟合情况的发生。

贝叶斯学派    为随机变量,值未知  最大后验概率估计

频率学派      为未知常量  最大似然估计

注:与ML相比,MAP就是将移进了条件概率中,并且多了一项p()。贝叶斯最大后验概率比最大似然估计更容易克服过拟合问题。原因大概是:过拟合一般是极大化  造成的,因此公式有两项组成,极大化 时,p()有可能比较下,这样就可以缓解过拟合情况。

我是补充的分割线

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页