中科院自动化所：紫东.太初

AI研究院

于 2023-06-07 14:29:37 发布

阅读量544

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bruce__ray/article/details/131023897

版权

文章讲述了人工智能的发展，从GPT系列的大规模语言模型，如1750亿参数的GPT-3，到中国的鹏程.盘古和紫东.太初等大模型，强调了参数量增长与多模态的重要性。这些模型在NLP和图像处理等领域取得显著成就，展现了AI技术的快速发展和对算力的高需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从16年的AlphaGo，到17年的AlphaZero，再到18年的AlphaFold，再到2020的GPT-3，人工智能演化发展的速度进一步加快。GP从11亿参数的GPT到150亿参数的GPT-2，再到1750亿参数的GPT-3。

1750亿参数的GPT-3。

为了训练GPT-3，微软新建了一个搭载了1万张显卡，价值5亿美元的算力中心。

模型在训练上则消耗了355个GPU年的算力，而成本超过460万美元。

其成果是显而易见的，GPT-3不仅在NLP方面取得了惊人的成就。

GP从11亿参数的GPT到150亿参数的GPT-2，再到1750亿参数的GPT-3。

今年1月，2000亿参数的鹏程.盘古发布。模型学习了40TB中文文本数据，视觉方面则包含超过30亿参数，兼顾了图像判别与生成能力，模型在16个下游任务中大部分指标优于SOTA模型，

除了大规模，多模态也是人工智能发展的重要方向，中科院自动化所推出了全球首个三模态大模型：紫东.太初。获得了MM2021视频描述国际竞赛的第一名，ICCV2021视频理解国际竞赛第一名。

博客等级

码龄10年

66
原创

61
点赞

449
收藏

78
粉丝

关注

私信

热门文章

分类专栏

最新评论

GPT-4的20个起飞的姿势
R StrangeInterpret: 这是翻译过来的？乍得GPT可还行
大模型有什么用，从技术上看
萤火之喵: 博主的分享很有价值，训练过程就是很麻烦的，而且服务器性能不好的话时间成本比较高，在训练部分不如直接租一个A100卡，autodl，inscode和炼丹侠都可以租用，在A100上基本上大部分的中小型训练任务都能完成，炼丹侠现在可以免费试用，而且云上服务器使用过程中还省去了自己配置环境的步骤。
大模型有什么用，从技术上看
萤火之喵: 支持up，另外提一句，推理的话最好还是选一个性能比较好的服务器，这样在处理多任务的时候不会出现资源抢占的问题，再好的并发处理也不如一个性能好的服务器，我就是在autodl，inscode和炼丹侠中选了一个服务器在处理我的推理任务，炼丹侠的A100速度快，性能高，省去了很多麻烦，现在还有免费试用活动，可以去试试。
一些人工智能工具
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616689996?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
十分钟读懂Stable Diffusion运行原理
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/615669044。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI研究院 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。