GPT3, llama2, InternLM2技术报告对比

Undefined游侠

于 2024-03-31 17:23:48 发布

阅读量2.1k

点赞数 10

文章标签： gpt-3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19859865/article/details/137196664

版权

GPT3（September 22, 2020）是大语言应用的一个milestone级别的作品，Llama2（February 2023）则是目前开源大模型中最有影响力的作品，InternLM2（2023.09.20）则是中文比较有影响力的作品。

今天结合三篇技术汇报，尝试对比一下这三个方案的效果。

参考GPT3，关于模型（Model and Architectures）的介绍分为了几个部分，包括Training Dataset， Training Process，而InternLM2包括了Pretrain和Alignment，LLama包括预训练，微调和安全。针对这个大致的划分，我们可以对比模型的具体细节效果。

1. 预训练

2. 微调，对齐

2. 模型结构及大小

模型大小

GPT3是175B参数，此外也提供了一些小版本。模型结构与GPT2一致。是一个纯decoder的transformer架构（没有深究了）。

LLama2则是70--700B参数

InternLM2则是1.8B到20B的参数量。

最低0.47元/天解锁文章

Undefined游侠

博客等级

码龄11年

91
原创

527
点赞

530
收藏

394
粉丝

关注

私信

热门文章

分类专栏

最新评论

Resnet20代码review
Sarah_Wang2: 您好，想请问下代码中的_make_layer是怎样的呀，谢谢
数据结构与算法2 哈希表
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
EfficientAI Lab：大模型AWQ量化
weixin_46656063: 为什么做这个Scale操作呢？其实是为了减少量化损失，对于普通的权重量化，损失一般在于Round操作的舍入误差，一般浮点数的舍入值在0~0.5，平均误差就是0.25。而先scale再量化的公式如下，一般来说在对应的salient weight row乘上因子s并不会影响weight的极值，那么，而Round误差一般也是不变的，那么下式的Err相比于原先的Err会多出一个1/s，那么量化误差就变低。
Swin-Transformer论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VIT论文阅读： A Image is Worth 16x16 Words
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。