![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型基础
文章平均质量分 93
北航程序员小陈
北京航空航天大学|计算机科学与技术|硕士 人工智能AI教学|python项目实战分享|java项目|C++|C#|微信小程序| 学习项目指导|sci|中文核心|会议 技术指导|远程部署|调试安装|在线教学
一位对编程充满热情的技术达人,专注于各大编程语言的应用和实战经验。从 Python 到 Java、JavaScript 到 C++ 等众多领域。无论是数据科学、机器学习、Web开发,还是嵌入式系统、移动应用开发,我都乐此不疲。
博客不仅仅是一个技术记录本,更是一个分享知识和经验的平台。通过详实的教程、实战经验分享,以及丰富多样的项目源码,我希望能够激发更多人对编程的兴趣,助力大家更好地成长。
展开
-
大模型分布式训练
近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。原创 2024-06-30 09:00:00 · 17 阅读 · 0 评论 -
大模型理论基础--什么是语言模型
语言模型是序列x1Lx_{1:L}x1L的概率分布 p。直观上,一个好的语言模型应具有语言能力和世界知识。自回归语言模型允许有效地生成给定提示x1ix_{1:i}x1i的补全xi1Lx_{i+1:L}xi1L。温度可以用来控制生成中的变异量。语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。N-gram模型在计算上极其高效,但在统计上效率低下。原创 2024-06-26 19:53:04 · 1156 阅读 · 0 评论