深度学习读书笔记（1）

最新推荐文章于 2024-02-20 17:19:56 发布

云水--禅心

最新推荐文章于 2024-02-20 17:19:56 发布

阅读量868

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012794724/article/details/81179798

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

过拟合和欠拟合

欠拟合：模型不能在训练集上获得足够低的误差；过拟合：训练误差和测试误差之间的差距太大。

通过调整模型的容量，可以控制模型是否偏向过拟合或者欠拟合。

从预先知道的真实分布p(x,y)预测而出现的误差被称为贝叶斯误差。

任何模型容量小于最优容量的固定参数模型会渐进到大于贝叶斯误差的误差值。

没有免费午餐定理

在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上都有相同的错误率。

这可能不好理解，不过还有另一种理解，在某种意义上，没有一个机器学习算法总是比其他的要好。

也就是说机器学习算法并不是通用的，对于不同的问题要有针对性的设计算法，当然这也只是相对最好的学习算法。我们可以通过设置偏好来达到这个要求。

正则化

正则化是指修改学习算法，使其降低泛化误差而非训练误差。我所理解的正则化即给代价函数添加正则化项。

KL散度

$D_{KL(\hat{p}_{data}||p_{model})}=E_{x \sim \hat{p}_{data}}[log\hat{p}_{data}(x)-logp_{model}(x)]$

$\hat{p}_{data}$ 表示训练数据经验分布， $p_{model}(x;\theta )$ 将任意输入x映射到实数来估计真实概率 $p_{data}(x)$ 。最小化KL散度就是在最小化分布之间的交叉熵。

任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。

PAC学习理论

核心：学习出来的模型会以较大概率接近于最优模型。

因为输入样本过少导致找不到对测试数据具有更好分类结果的假设，那机器学习在学习什么？在学习概率，虽不能对每个特定问题给出最优解，但是可以为问题求解提供一个参考。例如，假设训练集的误差（训练误差）为，总体数据的误差（泛化误差）为 $\mu$ ，用来近似 $\mu$ 有多高的精度呢？根据Hoeffding不等式

$P[|v-\mu|>\epsilon ]\leq 2e^{-2\epsilon^{2}N}$

$\epsilon$ 为任意大于0的常量，N为样本容量。它说明，用随机变量来估计位置参数 $\mu$ 时，虽然前者的概率分布在一定程度上取决于后者，但估计的精度只和样本容量N有关，要提高估计精度，就增加样本容量，极端情况将所有样本全部采集到，那么估计值就等于真实值。

更多关于计算学习理论的内容可以看这里http://www.sohu.com/a/164550264_824406

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习读书笔记（1）

过拟合和欠拟合欠拟合：模型不能在训练集上获得足够低的误差；过拟合：训练误差和测试误差之间的差距太大。通过调整模型的容量，可以控制模型是否偏向过拟合或者欠拟合。从预先知道的真实分布p(x,y)预测而出现的误差被称为贝叶斯误差。任何模型容量小于最优容量的固定参数模型会渐进到大于贝叶斯误差的误差值。没有免费午餐定理在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。