- 博客(6)
- 收藏
- 关注
原创 对彩票假设的理解
主要内容:作者先通过随机剪枝会使网络训练的轮数上升,验证集loss上升,测试集准确度下降证明剪枝需要找到特定的子网络,作者在此基础上提出了彩票假设。彩票假说:一个随机初始化的密集神经网络包含一个子网络,该子网络初始化后,在隔离训练时,经过最多相同次数的迭代训练后,可以与原始网络的测试精度相匹配。并且这样的子网络可以由标准剪枝技术发现,但是如果这些子网络重新初始化之后,训练,验证,测试性能将会下降。中奖的彩票需要特定的网络结构和初始化参数。猜想:在网络优化训练过程中,这些参数更容易被SGD激活,其他参数将无
2021-04-16 15:46:04
811
原创 对Deep Double Decent: Where Bigger Models And More Data Hurt的理解
作者提出几个现象,(1)有些时候更大的模型表现的更好有些时候更小的模型更好。(2)有些时候训练时间更长更好有些时候early stop更好。作者的经过多种实验发现许多深度学习设置有两种不同的机制。在参数化不足的情况下,与样本数量相比,模型的复杂性较小,作为模型复杂性的函数的测试误差遵循经典偏差/方差权衡所预测的类u行为。然而,一旦模型的复杂性足够大,可以进行插值,即达到(接近)零训练误差,那么增加复杂性只会降低测试误差,遵循“模型越大越好”的现代直觉。作者为了解释这个现象提出了一个叫做EMC的复杂度概念,
2021-03-23 17:24:54
793
原创 对Understanding Deep Learning Requires Rethinking Generalization的理解
对Understanding Deep Learning Requires Rethinking Generalization的理解1.任意具有2n+d个参数的网络具有就能拟合大小为n的训练集,而且当训练集标签随机化之后仍可拟合,证明网络具有暴力记忆所有训练集标签的能力,但是在通常情况下网络并不会选择进行暴力记忆,产生过拟合,说明网络趋向于参数更少的形式,即训练的过程中有对模型参数进行正则化限制参数数量。2.文章开始寻找是哪一种正则化对模型的泛化能力起了如此之大的作用,首先尝试了几种显式的正则化如l2范
2021-03-12 17:25:08
268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人