【ai大模型】关于Llama 3 AI大模型的几点总结

AI-智能

于 2024-07-13 10:39:44 发布

阅读量487

点赞数 13

文章标签：人工智能 llama langchain prompt LLM 产品经理 ai大模型

本文链接：https://blog.csdn.net/2401_82469710/article/details/140396108

版权

Meta最近终于发布了Llama3大模型，OpenAI和CloseAI又要“开战了”，以下是关于Llama3的几点总结：

1、发布时间

Llama3的发布时间是北京时间4月19号0点37分，这主要是依据 Meta的首席AI科学家 Yann LeCun 发布Twitter帖文的时间。

2、发布型号

目前Llama3发布了两款模型，分别是 Meta-Llama-3-8B 和 Meta-Llama-3-70B

3、Llama3 VS Llama2

4倍的词汇量（Llama3是128k，Llama2是32k）
使用 15T token训练，是 Llama2 的7倍
2倍的上下文，Llama3是8k，Llama2是4k（个人认为还是太小了，不过据说后续会发布更大的）
两个模型都具备分组查询注意力(GQA) ，Llama2只有70B这个模型具备
整体性能优于Llama2

4、性能测试

Llama3 在MMLU（学科知识理解）、GPQA（一般问题）、HumanEval（代码能力）、GSM-8K（数学能力）、MATH（比较难得数学）五个基准测试上，不管是Llama3-8B，还是Llama-70B，都优于目前比较优秀的大模型。

但是这个我觉得看看就行，毕竟比别人差的东西还发出来肯定会被用户吐槽，但性能肯定是不错的。

另外，为了寻求Llama3在现实场景的性能，开发人员还开发了一套新的高质量人类评估集。该评估集包含 1,800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。而且为了避免模型在此评估集上过度拟合，即使是Llama3的模型开发人员也无法访问它。

这是Llama3在这些评估集的测试结果，整体是优于其他模型的

5、训练数据

数量上， Llama 3 经过 15T token以上的预训练，并且官方声明这些数据全部从公开来源收集（比Llama 2使用的数据集大7倍）
超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成（但是这些语言的性能水平不会与英语相同，还是得靠其他开源大佬微调）
8B的知识库时间只到2023年3月，70B的知识库时间只到了2023年12月（感觉是不是8B的训练时间早于70B，所以时间早了这么多）

6、如何体验

6.1 Replicate

墙裂推荐，直接访问： https://llama3.replicate.dev/ 就行，无需登录

6.2 使用我们之前提到过的 ollama 工具

6.3 使用 MetaAI

不太建议，锁地区，而且要Facebook账户，对国内用户不友好

7、未来规划

Meta在后续的几个月中，将发布多个具有新功能的模型，包括多模态、以多种语言交谈的能力、更长的上下文窗口。

比如目前有一个400B的模型就仍在训练中，这是它的一个简单基准测试

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
在这里插入图片描述