大模型是如何学习的（非常详细）零基础入门到精通，收藏这一篇就够了

最新推荐文章于 2024-07-25 22:24:14 发布

网络安全大白

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量675

点赞数 14

分类专栏：人工智能科技程序员文章标签：学习

本文链接：https://blog.csdn.net/python_paipai/article/details/140532228

版权

程序员同时被 3 个专栏收录

327 篇文章 4 订阅

订阅专栏

科技

147 篇文章 0 订阅

订阅专栏

人工智能

34 篇文章 0 订阅

订阅专栏

不是所有的模型都一定能在训练过程中收敛，像模型本身有问题，训练数据有问题，或者超参数设置的有问题，都可能导致模型训不出来，一直在波动。

常见的超参数包括批量大小，迭代步数，激活函数，还有优化器选择等等，它们不改变模型结构，但是会控制模型怎么训练这个过程。在这其中最重要的一个超参数是学习率，学习率决定的是模型参数的更新幅度。但超参数还不是最麻烦的，真正从底层决定训练能不能成的，其实是模型的结构本身。

图片来源：百度

当年深度学习曾经差点没发展下去，就是发现层数增加到一定程度后，模型就学不明白了。模型的权重值一开始都是随机乱给的，所以这些导数值也都是不确定的。假如有很多值是大于一的，那这些数乘起来就会导致梯度爆炸，模型开始剧烈波动，而反过来的话，就是梯度消失。模型可能远远没学明白，但就是不动了。所以深度学习刚有点火的意思，就发展不下去了。

直到残差网络的出现，残差网络是在计算网络层输出的时候，从前面再挑一层加到一块，这样在计算梯度的时候，下一层的变化就被上一层的原始信息给稀释了一部分，但又没被完全清除掉，从头到尾梯度变化的稳定性就增强了很多。这样一来，构建足够深的神经网络才成为了可能。

欠拟合会导致模型准确率升到一定程度后就升不上去了，而过拟合会导致有时候模型能力太强了，直接把数据全原样背下来了，甚至会记住一些干扰因素。

真正学明白的模型是要具备泛化能力的，泛化指的是模型遇到从未见过的数据的时候，能不能学明白，它是衡量模型性能的一个关键指标。只有真正从数据里面学到底层规律，才能推而广之，解决更多的同类问题。

图片来源：百度

那怎么来评估一个模型的泛化能力呢？我们会把数据划分为训练集、验证集和测试集来做这件事。训练集就像是平常的作业和习题，模型通过学习训练集上的数据来识别模式和规律。验证集就像是模拟考试，用来阶段性地评估模型表现。

模型通过训练集的数据更新内部的权重值，然后经过验证集检测能力，检测出来发现效果不好，我们就调整超参数，或者是修改网络结构，直到它在验证集这个模拟考试上能拿到高分。测试集就是高考，它评估的就是模型未来放到真实世界之后，最终性能大概会是什么样。如果能搞定测试集，那大模型大概率就成了。

AI大模型学习福利

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

网络安全大白

关注

14
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大模型是如何学习的（非常详细）零基础入门到精通，收藏这一篇就够了

不是所有的模型都一定能在训练过程中收敛，像模型本身有问题，训练数据有问题，或者超参数设置的有问题，都可能导致模型训不出来，一直在波动。常见的超参数包括批量大小，迭代步数，激活函数，还有优化器选择等等，它们不改变模型结构，但是会控制模型怎么训练这个过程。在这其中最重要的一个超参数是学习率，学习率决定的是模型参数的更新幅度。但超参数还不是最麻烦的，真正从底层决定训练能不能成的，其实是模型的结构本身。图片来源：百度当年深度学习曾经差点没发展下去，就是发现层数增加到一定程度后，模型就学不明白了。
复制链接

扫一扫

专栏目录