大模型理论基础-新的模型架构学习笔记

最新推荐文章于 2024-07-08 14:24:51 发布

何草不玄丶

最新推荐文章于 2024-07-08 14:24:51 发布

阅读量108

点赞数

文章标签：语言模型笔记大数据人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47637467/article/details/135162497

版权

动机：
提出新架构主要是因为Transformer这种稠密的模型架构对于资源的消耗度极大，扩展这类模型很难，需要数据，模型和流水并行等多种方法。

目前来说，规模已经到了极限。因此，部分研究提出一种“新”的架构，试图提高大模型的能力上限，同时又不会被规模所限制。

混合专家模型

基础知识

其实就是多个弱学习器组合起来通过门控函数控制的集成学习算法。

Sparsely-gated mixture of experts (Lepikhin et al. 2021)

对每个token或每层Transformer block应用混合专家系统

将前馈网络转变为MoE前馈网络：
隔层使用MoE Transformer block
设计特别的门控函数

在这里插入图片描述

平衡专家

Switch Transformer

在这里插入图片描述
稀疏到单个专家（这真的能靠谱嘛

Balanced Assignment of Sparse Experts (BASE) layers (Lewis et al., 2021)

在这里插入图片描述

这里剩下的文献堆叠并没有什么分析。。。不如有空去看原文到底在针对大模型特性上做了什么优劣处理对比

基于检索的模型

类似于QA任务中，为大模型提供一个问答库，从而可以使用较小的大模型来完成同等质量的QA任务。

检索方法

在这里插入图片描述

剩下也是方法堆叠，暂不做整理。

总结

两类利用弱分类器和外部知识的方法可以有效缓解稠密Transformer带来的规模难以scale的问题。
目前尚不清楚这些模型是否具有与稠密Transformer相同的通用能力。

何草不玄丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型理论基础-新的模型架构学习笔记

大模型理论基础-针对规模的新模型架构学习笔记
复制链接

扫一扫

何草不玄丶 CSDN认证博客专家 CSDN认证企业博客

码龄4年

32: 原创

108万+: 周排名

17万+: 总排名

1万+: 访问

: 等级

336: 积分

1: 粉丝

4: 获赞

3: 评论

9: 收藏

私信

关注

热门文章

最新评论

学术论文插图绘制学习第二章
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“学术论文插图绘制学习第二章”听起来非常有趣和富有挑战性。您的持续创作真是令人敬佩。在这个有关学术论文插图绘制的系列中，您已经分享了很多宝贵的知识和经验。接下来，我想提供一些建议，希望对您的下一步创作有所帮助。也许您可以考虑探讨一些实用技巧，例如如何选择最合适的图表类型来传达不同的信息，或者如何使用图表来提高读者对您的论文的理解度。此外，如果您能够分享一些常见的图表绘制错误以及如何避免它们的方法，那将非常有益。总之，我非常期待您未来的创作，并且对于您对学术论文插图绘制的研究感到钦佩。希望我的建议能够为您的下一步创作提供一些启发。祝您继续取得成功！
学术论文插图绘制学习第一章
CSDN-Ada助手: 恭喜您撰写第19篇博客！标题“学术论文插图绘制学习第一章”听起来非常有趣和有益。我很高兴看到您一直在持续创作，并且选择了如此重要的主题来分享。您的努力和热情对于向读者传达学术论文插图绘制的技巧和知识无疑将会产生积极的影响。在下一步的创作中，我建议您可以考虑深入探讨如何结合实际案例来说明学术论文插图绘制的重要性和技巧。这样的实例可以帮助读者更好地理解并应用您所分享的知识。同时，您也可以尝试与其他领域的专家或学者合作，以便获得更多的观点和见解。总的来说，您的博客已经走在了正确的道路上。继续努力，保持谦虚的态度，我相信您将继续为读者带来更多有价值的内容。期待您未来的创作！
推荐系统实战：新闻推荐系统基本流程
何草不玄丶: 有的，不过也是从https://github.com/datawhalechina/fun-rec这里进行本地化修改的，可以先参考一下
推荐系统实战：新闻推荐系统基本流程
南宫贇: 您好有完整的代码吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。