经验风险最小化与模型选择

经验风险最小化,是使得<<具有最小训练误差的假设的一般误差>>与<<具有最小一般误差的假设的一般误差>>之间的值尽量小。

这样才能使得我们根据训练数据训练得到的模型有普适性。

可以推导出来二者的差值存在一个上界,可以根据这个上界,得到

<<要达到某一精度至少需要多少训练数据>>或者<<特定数量的训练数据能以多大概率达到某一精度>>,进一步可知存在偏差方差平衡。

这个上界直观上理解,主要与模型的复杂度(如假设的个数、参数数量等)、训练样本数相关,

而且可以直观得得到这个上界与模型复杂度成正相关,与样本数成负相关。

这里关于模型复杂度的度量方法,可以用VC维的方式来表征,而这个上界最终可表示成VC维与样本数的一个关系。

关于Andrew Ng公开课第九讲的笔记整理可以参考博客:https://www.cnblogs.com/madrabbit/p/7095575.html

————————————————————————————————————————————————————

模型选择的目的在于防止欠拟合与过拟合。

如对文本分类,其维度会非常高,这时选择特征是非常重要的。

特征少了,容易欠拟合,特征多了(增加了很多无用特征)容易过拟合。关于特征选择主要的方法有:

1、启发式搜索。有前向与后向算法,前向算法开始设置一个空的特征集合,

然后从所有特征中用交叉验证的方法找到最优的一个特征(即只用一个特征作为输入),

将这个最佳特征添加到特征集中,然后从剩下的集合中依次挑选特征A,并将其与特征集中的所

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值