不是所有的模型都一定能在训练过程中收敛,像模型本身有问题,训练数据有问题,或者超参数设置的有问题,都可能导致模型训不出来,一直在波动。
常见的超参数包括批量大小,迭代步数,激活函数,还有优化器选择等等,它们不改变模型结构,但是会控制模型怎么训练这个过程。在这其中最重要的一个超参数是学习率,学习率决定的是模型参数的更新幅度。但超参数还不是最麻烦的,真正从底层决定训练能不能成的,其实是模型的结构本身。
图片来源:百度
当年深度学习曾经差点没发展下去,就是发现层数增加到一定程度后,模型就学不明白了。模型的权重值一开始都是随机乱给的,所以这些导数值也都是不确定的。假如有很多值是大于一的,那这些数乘起来就会导致梯度爆炸,模型开始剧烈波动,而反过来的话,就是梯度消失。模型可能远远没学明白,但就是不动了。所以深度学习刚有点火的意思,就发展不下去了。
直到残差网络的出现,残差网络是在计算网络层输出的时候,从前面再挑一层加到一块,这样在计算梯度的时候,下一层的变化就被上一层的原始信息给稀释了一部分,但又没被完全清除掉,从头到尾梯度变化的稳定性就增强了很多。这样一来,构建足够深的神经网络才成为了可能。
欠拟合会导致模型准确率升到一定程度后就升不上去了,而过拟合会导致有时候模型能力太强了,直接把数据全原样背下来了,甚至会记住一些干扰因素。
真正学明白的模型是要具备泛化能力的,泛化指的是模型遇到从未见过的数据的时候,能不能学明白,它是衡量模型性能的一个关键指标。只有真正从数据里面学到底层规律,才能推而广之,解决更多的同类问题。
图片来源:百度
那怎么来评估一个模型的泛化能力呢?我们会把数据划分为训练集、验证集和测试集来做这件事。训练集就像是平常的作业和习题,模型通过学习训练集上的数据来识别模式和规律。验证集就像是模拟考试,用来阶段性地评估模型表现。
模型通过训练集的数据更新内部的权重值,然后经过验证集检测能力,检测出来发现效果不好,我们就调整超参数,或者是修改网络结构,直到它在验证集这个模拟考试上能拿到高分。测试集就是高考,它评估的就是模型未来放到真实世界之后,最终性能大概会是什么样。如果能搞定测试集,那大模型大概率就成了。
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
四、AI大模型商业化落地方案
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。