qq_43556620-CSDN博客

原创书生·浦语大模型实战营第二节课作业笔记

下载 InternLM-20B 的 config.json 文件到本地。

2024-02-13 15:51:12 98

主要内容：作者先通过随机剪枝会使网络训练的轮数上升，验证集loss上升，测试集准确度下降证明剪枝需要找到特定的子网络，作者在此基础上提出了彩票假设。彩票假说：一个随机初始化的密集神经网络包含一个子网络，该子网络初始化后，在隔离训练时，经过最多相同次数的迭代训练后，可以与原始网络的测试精度相匹配。并且这样的子网络可以由标准剪枝技术发现，但是如果这些子网络重新初始化之后，训练，验证，测试性能将会下降。中奖的彩票需要特定的网络结构和初始化参数。猜想：在网络优化训练过程中，这些参数更容易被SGD激活，其他参数将无

2021-04-16 15:46:04 811

原创对Deep Double Decent: Where Bigger Models And More Data Hurt的理解

作者提出几个现象，（1）有些时候更大的模型表现的更好有些时候更小的模型更好。（2）有些时候训练时间更长更好有些时候early stop更好。作者的经过多种实验发现许多深度学习设置有两种不同的机制。在参数化不足的情况下，与样本数量相比，模型的复杂性较小，作为模型复杂性的函数的测试误差遵循经典偏差/方差权衡所预测的类u行为。然而，一旦模型的复杂性足够大，可以进行插值，即达到(接近)零训练误差，那么增加复杂性只会降低测试误差，遵循“模型越大越好”的现代直觉。作者为了解释这个现象提出了一个叫做EMC的复杂度概念，

2021-03-23 17:24:54 793

原创对Understanding Deep Learning Requires Rethinking Generalization的理解

对Understanding Deep Learning Requires Rethinking Generalization的理解1.任意具有2n+d个参数的网络具有就能拟合大小为n的训练集，而且当训练集标签随机化之后仍可拟合，证明网络具有暴力记忆所有训练集标签的能力，但是在通常情况下网络并不会选择进行暴力记忆，产生过拟合，说明网络趋向于参数更少的形式，即训练的过程中有对模型参数进行正则化限制参数数量。2.文章开始寻找是哪一种正则化对模型的泛化能力起了如此之大的作用，首先尝试了几种显式的正则化如l2范

2021-03-12 17:25:08 268

qq_43556620的博客

原创【书生·浦语】大模型实战营——第四课作业

原创书生·浦语大模型全链路开源体系【大模型第3课-作业】

原创书生·浦语大模型实战营第二节课作业笔记

原创对彩票假设的理解

原创对Deep Double Decent: Where Bigger Models And More Data Hurt的理解

原创对Understanding Deep Learning Requires Rethinking Generalization的理解

空空如也

空空如也

原创 【书生·浦语】大模型实战营——第四课作业

原创 书生·浦语大模型全链路开源体系【大模型第3课-作业】

原创 书生·浦语大模型实战营第二节课作业笔记

原创 对彩票假设的理解

原创 对Deep Double Decent: Where Bigger Models And More Data Hurt的理解

原创 对Understanding Deep Learning Requires Rethinking Generalization的理解

空空如也

空空如也

原创【书生·浦语】大模型实战营——第四课作业

原创书生·浦语大模型全链路开源体系【大模型第3课-作业】

原创书生·浦语大模型实战营第二节课作业笔记

原创对彩票假设的理解

原创对Deep Double Decent: Where Bigger Models And More Data Hurt的理解

原创对Understanding Deep Learning Requires Rethinking Generalization的理解