统计学习方法笔记一

最新推荐文章于 2024-03-31 12:48:31 发布

Taoist_Nie

最新推荐文章于 2024-03-31 12:48:31 发布

阅读量167

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39494028/article/details/81611233

版权

统计学习方法笔记(一)

1.1实现统计学习方法的步骤

1.得到一个有限的训练数据集。

2.确定包含所有可能的模型的假设空间，即学习模型的集合。

3.确定模型选择的准则，即学习策略。

4.实现求解最优模型的算法，即学习方法。

5.通过学习方法选择最优化模型。

6.利用学习的最优化模型对数据进行预测或分析。

1.2监督学习

输入变量与输出变量

（表示方法按主流表示）

1.特征向量： $x=(x_1~,x_2,...x_n)^T$

2. $x^{(i)}$ 表示第i个输入实例： $x^{(i)}=(x_1^{(i)},x_2^{(i)}...x_n^{(i)})^T$

3.训练集表示为： $T={(x^{(1)},y_1),(x^{(2)},y_2)...(x^{(n)},y_n)}$

4.输入变量与输出变量写作：X,Y; 其取的值写作：x,y。

问题类型

样本：测试数据由输入和输出组对组成，输入与输出对又称为样本。

回归问题：输入变量与输出变量均为连续变量的预测问题。

分类问题：输入变量与输出变量均为有限个离散变量的预测问题。

标注问题：输入变量与输出变量均为变量序列的预测问题。

联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数，或分布密度函数。此为监督学习的基本假设。

假设空间

输入空间到输出空间的映射的集合，就是假设空间。

监督学习的模型可以为概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y= $f(X)$ 表示，具体值预测写作P(y|x)或 $y=f(x)$ 。

1.3统计学习三要素

方法=模型+策略+算法

模型

所要学习的条件概率分布或决策函数==模型 $\subseteq$ 模型假设空间

令假设空间为 $\digamma$ ，参数向量 $\theta$ 取值于n维欧式空间 $R^n$ ,称为参数空间。

假设空间可以定义为决策函数的集合：

$\digamma$ ={ $f$ | $Y$ = $f(X)$ }

X和Y是定义在输入空间 $\chi$ 和输出空间 $\gamma$ 上的变量，这时 $\digamma$ 通常是由一个参数向量决定的函数族：

$\digamma=$ { $f|Y=f_{\theta}(X),\theta\in{R^n}$ }

假设空间也可以定义为条件概率的集合

$\digamma$ ={ $P|P(Y|X)$ }

X和Y是定义在输入空间 $\chi$ 和输出空间 $\gamma$ 上的变量，这时 $\digamma$ 通常是由一个参数向量决定的条件分布族：

$\digamma$ ={ $P|P_{\theta}(Y|X),\theta\in{R^n}$ }

策略

损失函数度量模型预测一次的好坏

风险函数度量平均意义下模型预测的好坏

监督学习问题是在假设空间中 $\digamma$ 中选取模型 $f$ 作为决策函数，给定的输入X，由 $f(X)$ 给定输出Y，这个输出的预测值 $f(X)$ 与真实值Y会有所误差，用一个损失函数或代价函数来度量预测错误的程度，损失函数 $f(X)$ 和Y的非负实值函数记作L(Y, $f(X)$ )。

常用损失函数：

1.0-1损失函数

L(Y, $f(X)$ )=

{1, 0, Y \neq f (X) Y = f (X)

$\left\{\begin{array}{cc} 1, & Y{\ne}f(X)\\ 0, & Y=f(X) \end{array}\right.$

2.平方损失函数

L(Y, $f(X)$ )=(Y- $f(X)$ ) $^2$

3.绝对损失函数

L(Y, $f(X)$ )= $|Y-f(X)|$

4.对数损失函数或对数似然损失函数

L(Y,P(Y|X))= $-logP(Y|X)$

经验风险：

通过损失函数我们可以得到对于单个样本的预测能力，对于训练样本集中所有数据的预测可以通过累加得到再取平均值，这就是经验风险：

$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y^{(i)},f(x^{(i)})$

期望风险：

当样本容量足够时，经验风险越小则说明对于训练集数据的拟合程度越好，由于未知样本的数量不知，无法采取平均值的方式求得。这里假设X,Y服从联合分布P（X,Y），期望风险可表示为：

$R{exp}(f)=E_p[L(Y,f(x))]=\int_{xy}L(y,f(x))P(x,y)dxdy$

结构风险：

但是由于联合分布函数P（X,Y）是很难求得的。所以期望风险是不容易得到的。但是如果采用经验风险来代替期望风险，当训练集数据过小时有可能出现过度拟合的问题，即决策函数对于训练集几乎全部拟合，但是对于测试集拟合效果过差，于是·这里又引入结构风险：

$R_{srm}(f)=\frac{1}{N}\sum^N_{i=1}l(y^{(i)},f(x^{(i)}))+\lambda{J(f)}$

经验风险越小，模型决策函数越复杂，包含参数越多，拟合效果越好，但是到一定程度又容易出现过度拟合的问题，这里引入正则化项，其中λ是参数， $J(f)$ 表示模型复杂度，通过降低模型复杂度来防止过拟合的出现，即 $\lambda{J(f)}$ 的值最小化，因为经验风险目的是求的最小化，正则化目的也是求取最小化，因此这里将两者相加来求取最小化，即可得结构风险。

经验风险是局部概念，针对训练样本的损失函数，可求得。
期望风险是全局概念，针对未知测试样本的损失函数，不可求得。
结构风险是两者的折中处理，是经验风险和正则化的加和。

算法

算法是只学习模型的具体计算方法，统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑求解最优模型的计算方法。

即：统计学习方法为求解最优解的方法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Taoist_Nie CSDN认证博客专家 CSDN认证企业博客

码龄7年

38: 原创

24万+: 周排名

117万+: 总排名

3万+: 访问

: 等级

731: 积分

28: 粉丝

34: 获赞

9: 评论

118: 收藏

私信

关注

热门文章

最新评论

存储结构与磁盘划分
CSDN-Ada助手: 非常感谢博主的分享，存储结构与磁盘划分是非常重要的话题。我觉得下一篇博客可以写一些关于RAID技术的内容，比如RAID的原理、RAID的级别、RAID的优缺点等等。这样的技术文章对其他用户也会有很大的帮助。相信博主会写得非常好，会有更多读者受益。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
贝叶斯拼写检查器
Mon0dy: 个人觉得，贝叶斯的P(D|h)应该对应了correct函数里candidates那行（四个或项相关性递减），P(h)应该对应了correct函数里max那行(词频表示概率)
新闻分类任务(LDA模型，多项分布朴素贝叶斯）
weixin_40237880: 楼主您好，可否发一个训练数据给我，就是那个val.txt文件，邮箱76326498@qq.com
新闻分类任务(LDA模型，多项分布朴素贝叶斯）
苗成鑫: 大神，能给个完整的代码吗，感激不尽
网络爬虫学习第五弹：lxml库的使用
FHLD666: 真好

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。