统计学习方法笔记二

Taoist_Nie

于 2018-08-12 21:47:03 发布

阅读量140

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39494028/article/details/81611236

版权

统计学习方法笔记(二)

1.4模型评估与模型选择

训练误差与测试误差

假设学习到的模型是：

$Y=\hat{f}(X)$

训练误差是模型关于训练数据集的平均损失:

$R_{emp}(\hat{f})=\frac{1}{N}\sum^N_{i=1}L(y_i,\hat{f}(x_i))$

测试误差是模型关于测试数据集的平均损失:

$e_{text}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}L(y_i,\hat{f}(x_i))$

(N为训练样本容量，N^’^为测试样本容量)

测试误差反映了学习方法对未知测试数据集的预测能力，预测误差小的方法具有更好的预测能力。

过拟合与模型选择

过拟合：对已知数据集拟合很好，对未知数据预测很差。

模型选择：当选择的模型复杂度过大，会出现过拟合，故我们要选择复杂度适当的最优模型。

1.5正则化与交叉验证

正则化

正则化是在经验风险上加上一个正则化项，通过减小模型复杂度来防止过拟合，一般具有如下形式：

$min_{f\in\digamma}=\frac{1}{N}L(y_i,f(x_i))+\lambda{J(f)}$

交叉验证

在样本数据充足的情况下，随机将数据集切成三部分，分别为训练集，验证集，测试集。训练集用于训练模型；验证集用于模型的选择；测试集用于最终对学习方法的评估。

简单交叉验证：

随机将数据集分成两部分，一部分作为训练集，另一部分作为测试集。用训练集在各种条件下训练模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型。

S折交叉验证

随机将数据集切分成S个互不相交的大小相同的子集，利用S-个子集的数据训练模型，利用余下的子集测试模型，将这一过程对可能的S种选择重复进行，最后选出S种评测中平均测试误差最小的模型。

留一交叉验证：

S折交叉验证的特殊情形是S=N，称为留一交叉验证，在数据缺乏的情况下使用，N是给定数据集的容量。

1.6泛化能力

泛化误差

若学到的模型是 $\hat{f}$ ，那么以下模型是对未知数据预测的误差即为泛化误差。

$R{exp}(f)=E_p[L(Y,f(x))]=\int_{xy}L(y,f(x))P(x,y)dxdy$

泛化误差越小，学习方法越好，泛化误差即期望风险。

泛化误差上界

泛化能力分析是通过研究泛化误差的概率上界进行的，简称泛化误差上界。泛化误差上界是样本容量的函数，当样本容量增加时，泛化上界趋于0；且泛化误差是假设空间容量的函数，假设空间容量越大，模型越难学。

例(二分分类问题)：

已知：

T={ $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)})...(x^{(N)},y^{(N)})$ }

$(X,Y)\sim{P(X,Y)}$ ； $X\in{R^n}$ ， $Y\in$ {-1,+1}

$\digamma$ ={ $f_1,f_2...f_d$ }

损失函数是0-1损失，关于 $f$ 的期望风险和经验风险分别是:

$R(f)=E[L(Y,f(X))]$

$\hat{R}=\frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))$

经验风险最小化函数是：

$f_N=argmin_{f\in\digamma}\hat{R}(f)$

$f_N$ 的泛化能力：

$R(f_N)=E[L(Y,f_N(X))]$

定理：对二分类问题，对任意一个函数 $f\in{\digamma}$ ,至少以概率 $1-\delta$ ,以下不等式成立：

$R(f)\le{\hat{R}(f)}+\varepsilon(d,N,\delta)$

$\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}$

左边为泛化误差，右为泛化误差上界。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法笔记二

统计学习方法笔记(二)1.4模型评估与模型选择训练误差与测试误差假设学习到的模型是：Y=f^(X)Y=f^(X)Y=\hat{f}(X)训练误差是模型关于训练数据集的平均损失:Remp(f^)=1N∑Ni=1L(yi,f^(xi))Remp(f^)=1N∑i=1NL(yi,f^(xi))R_{emp}(\hat{f})=\frac{1}{N}\sum^N_{i=1}...
复制链接

扫一扫

Taoist_Nie CSDN认证博客专家 CSDN认证企业博客

码龄7年

38: 原创

24万+: 周排名

141万+: 总排名

3万+: 访问

: 等级

728: 积分

28: 粉丝

34: 获赞

9: 评论

117: 收藏

私信

关注

热门文章

最新评论

存储结构与磁盘划分
CSDN-Ada助手: 非常感谢博主的分享，存储结构与磁盘划分是非常重要的话题。我觉得下一篇博客可以写一些关于RAID技术的内容，比如RAID的原理、RAID的级别、RAID的优缺点等等。这样的技术文章对其他用户也会有很大的帮助。相信博主会写得非常好，会有更多读者受益。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
贝叶斯拼写检查器
Mon0dy: 个人觉得，贝叶斯的P(D|h)应该对应了correct函数里candidates那行（四个或项相关性递减），P(h)应该对应了correct函数里max那行(词频表示概率)
新闻分类任务(LDA模型，多项分布朴素贝叶斯）
weixin_40237880: 楼主您好，可否发一个训练数据给我，就是那个val.txt文件，邮箱76326498@qq.com
新闻分类任务(LDA模型，多项分布朴素贝叶斯）
苗成鑫: 大神，能给个完整的代码吗，感激不尽
网络爬虫学习第五弹：lxml库的使用
FHLD666: 真好

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。