复旦邱锡鹏：深度剖析 ChatGPT 类大语言模型的关键技术

最新推荐文章于 2024-08-14 18:00:31 发布

DatagrandRS

最新推荐文章于 2024-08-14 18:00:31 发布

阅读量3.3k

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/DatagrandRS/article/details/129589388

版权

复旦大学邱锡鹏教授解析ChatGPT的关键技术，包括情景学习、思维链、自然指令学习，以及大模型的涌现能力。ChatGPT通过大规模预训练获取知识，其对话能力源于产品创新。同时，文章探讨了构建大语言模型的四个维度，并指出ChatGPT的局限性在于不可控性、推理能力和实时交互性。

摘要由CSDN通过智能技术生成

内容来源：ChatGPT 及大模型专题研讨会
分享嘉宾：复旦大教授邱锡鹏
分享主题：《对话式大型语言模型》
转载自CSDN稿件

ChapGPT 自问世以来，便展现出了令世人惊艳的对话能力。仅用两个月时间，ChatGPT 月活跃用户就达一亿，是史上用户增速最快的消费应用。对于学术界、工业界、或是其他相关应用来说都是一个非常大的机会和挑战。事实上，ChatGPT 的成功并不是偶然结果，其背后多有创新之处。本文整理于达观数据参与承办的「ChatGPT 及大模型专题研讨会」上，复旦大学邱锡鹏教授带来的《对话式大型语言模型》主题分享，他从大规模预训练语言模型带来的变化、ChatGPT 的关键技术及其局限性等角度深入地介绍了大规模语言模型的相关知识。

邱锡鹏，复旦大学计算机学院教授，MOSS 系统负责人

为什么是大语言模型？

随着算力的不断提升，语言模型已经从最初基于概率预测的模型发展到基于 Transformer 架构的预训练语言模型，并逐步走向大模型的时代。为什么要突出大语言模型或是在前面加个“Large”？更重要的是它的涌现能力。

当模型规模较小时，模型的性能和参数大致符合比例定律，即模型的性能提升和参数增长基本呈线性关系。然而，当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后，人们发现其可以打破比例定律，实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”（如理解人类指令等）。

最低0.47元/天解锁文章

DatagrandRS

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复旦邱锡鹏：深度剖析 ChatGPT 类大语言模型的关键技术

目前 MOSS 收集了几百万真实人类对话数据，也在进一步迭代优化，也具有多轮交互的能力，所以对于指令的理解能力上，通用的语义理解能力上，和ChatGPT 非常类似，任何话它都能接得住，但它的质量没有 ChatGPT 那么好，原因在于模型比较小，知识量不够。对于一些 LLM 没有见过的新任务，只需要设计一些任务的语言描述，并给出几个任务实例，作为模型的输入，即可让模型从给定的情景中学习新任务并给出满意的回答结果。更重要的是它的涌现能力。例如，做一个电影的评论，给出相应的任务模型，即可输出正面的回答。
复制链接

扫一扫