深度学习（数据集划分偏差方差）

最新推荐文章于 2022-04-09 13:12:42 发布

helloworldsv

最新推荐文章于 2022-04-09 13:12:42 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_34059989/article/details/78161066

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

以后做的整理尽量精简。。日后定及时整理。
1.hold-out cross validation/development set验证集
数据集的常见划分：7 3分 train test 6 2 2 前几年这么认为
现在数据量太大，100万，验证集不用太多，为了快速判别出好的算法。
测试集为了快速评估性能1万只需要1000。
98:：1：1
超过百万
99.5 0.4 0.1
训练集和验证集来自统一分布
不需要无偏评估算法性能。不要测试集。普通的交叉验证，把测试集放在了验证集里
这时候验证集有可能被称为测试集
2.
偏差：在训练集上，高偏差，说明拟合的不好。数据拟合度低
在训练集上过度的拟合了部分数据，导致高方差。
方差：在验证集上的一种度量。高方差，拟合了太多错误的。高偏差，灵活性高。
偏差：通常是在训练集。高偏差，选择新模型。
最优误差：人类水平
3.高偏差怎么办？训练集无法拟合，选择新网络架构等等，增大网络。
高方差（在验证集上表现不好），怎么办？1.去获得更多数据2.正则项3.新模型
机器学习中传统的方差偏差平衡。深度学习中貌似可以不用太考虑
4。
正则化：ng省略了b，他认为参数w包含了大部分的参数

1范数和2范数。有人认为1范数会导致参数
numerator 分子
denominator 分母
多层模型中，W矩阵的范数的平方叫做Frobenius
5.为什么正则化可以避免过拟合。 labda大，导致z小，导致线性，一班来说，越线性，拟合度低，不会过拟合。
6.dropout正则化
1.反向随机失活（inverted dropout）选择keep-prob进行对a进行单元处理，random < keep_prob =0。
z=a*w+b，为了保持Z的期望不变，除以keep_prob
在测试阶段，不使用dropout，我们希望结果不随机的。（dropout用在训练时候）
7.why dropout work?
会随机删除某个单元，我们不会把权重放在某个input上，而是尽可能的传播开。主要用于计算机视觉。
缺点是J不确定了。
8.其它正则化方法：
1.data argumentation 数据扩增。一个图片的旋转
2.提前停止（Early Stopping）的策略是：在验证误差不在提升后，提前结束训练；而不是一直等待验证误差到最小值。
机器学习的几个步骤1.选择一个算法来优化代价函数2.not overfit：正则化。
迭代到某个位置停止。。缺点：不能同时进行这2个任务。
3. l2正则化必须尝试很多正则化labda。 early stoping只需要运行一次
17.10.5

helloworldsv

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
深度学习（数据集划分偏差方差）

Mathematical expression of gaussian eliminationelimination-step and get a upper triangular matrixfor k=0 to n-1 mki=a(k)ika(k)kk(i=k+1,…,n−1) m_i^k= \frac {a_{ik}^{(k)}} {a_{kk}^{(k)}} (i=k+
复制链接

扫一扫