【chatGPT】

Chensan_

已于 2023-04-27 13:00:34 修改

阅读量2.1w

点赞数

文章标签：人工智能自然语言处理机器学习

于 2023-04-27 00:34:43 首次发布

本文链接：https://blog.csdn.net/Chensan_/article/details/130395152

版权

chatGPT（Generative pretrained transformer ）
ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

ChatGPT的成功离不开多类技术的积累，其中最为核心的是RLHF，此外还有SFT、IFT、CoT这些技术：
Reinforcement Learning from Human Feedback (RLHF) RLHF方法是一种基于人类偏好的强化学习方法。它通过利用人们对对话代理回答的评价来改进对话代理的回答。RLHF方法可以根据人们的喜好对对话代理的回答进行排序，例如通过考虑人们喜欢的内容来选择文本摘要。这些评价的回答用来训练一个喜好模型，该模型将告诉强化学习系统如何评价回答的好坏。最后，通过强化学习训练对话代理来模拟这个喜好模型。整个训练过程包括对GPT-3进行监督微调，然后训练奖励模型，最后通过强化学习优化 SFT（监督下的微调模型）（第二步和第三步可以多次迭代循环）。SFT是（Supervised Fine-Tuning 模型）是一种预先训练的语言模型，经过对少量标签者提供的演示数据的细微调整，以学习一个监督策略（即 SFT 模型），可从选定的提示列表生成输出。

ChatGPT采用基于指令微调 (Instruction Fine-Tuning，IFT)的技术来模拟人类的聊天行为。IFT是一种能够追踪、学习和复述聊天会话历史的技术，并将其应用于在实时会话中对自然语言进行建模和推断。该方法除了使用情感分析、文本分类、摘要等经典 NLP 任务来微调模型外，还在非常多样化的任务集上向基础模型示范各种书面指令及其输出，从而实现对基础模型的微调。由此，ChatGPT能够发挥较大的自由度，提供更多样化的自然回复，玩家们可以与机器人无缝对话，体验自然聊天的乐趣。IFT还能够帮助ChatGPT进行语法检查，避免出现重复或无意义的语句，从而提升会话体验。

Chain-of-thought (CoT) 技术提示最早由谷歌在2022年1月提出来，是few-shot prompting (也被成为In Context Learning, ICL)的一种独特情形，它的目的是使大型语言模型能够更好地理解人类的语言请求。它通过在对话过程中不断提供上下文信息，来帮助模型理解语言请求的内容。这种技术可以使模型更准确地回答问题，并且可以帮助模型在处理复杂的对话任务时变得更加灵活。总的来说，CoT技术是为了改善大型语言模型的语言处理能力，使其能更好地理解人类语言请求。

根据OpenAI官方的文档，ChatGPT的构建大致包括如下三个步骤：

1）搜集对话数据，训练有监督的微调模型。人类标注员选择提示词并写下期望的输出回答，然后利用这些数据对一个预训练的语言模型进行微调，从而学习到一个有监督的微调模型（即SFT模型）。
2）搜集用于对比的数据，训练一个奖励模型（Reward Model）。这一步是为了模仿人类的偏好。标注员对SFT模型的大量输出进行投票，从而创建一个包含比较数据的新数据集。然后在此数据集上训练一个新模型，称为奖励模型（RM）。
3）搜集说明数据，使用PPO（Proximal Policy Optimization, 近端优化策略）强化学习来优化策略。利用奖励模型进一步微调并改进SFT模型，最终得到优化完毕的SFT模型。

chatGPT-3.5-Turbo

在海量训练参数基础上加入人工标注与强化学习
-随着机器学习算法的不断进步以及海量数据的可用性，自然语言处理（NLP）领域取得了巨大的进展。其中，GPT-3.5-Turbo是一种代表着重大突破的NLP模型。作为生成式语言模型，GPT-3可以根据上下文预测给定句子中的下一个单词，进而生成类似人类的文本。

-GPT-3.5-Turbo还提供了开放API，这意味着任何人都可以使用它进行各种自然语言处理任务。这一功能为研究人员、开发人员和企业提供了巨大的灵活性和创新空间。通过利用GPT-3.5-Turbo，用户可以快速地构建自己的自然语言处理应用程序，并且不需要担心底层的复杂技术细节。

-GPT-3.5-Turbo还具有一个独特的优势，即它可以自我学习、自我改进。这意味着随着时间的推移，它可以通过不断地接收新的数据和信息来增强自己的表现。这种能力被称为“元学习”，是近年来NLP领域研究的热点

最低0.47元/天解锁文章

Chensan_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【chatGPT】

更强大的创造力和适应力，GPT-4具有强大的创造力，它可以根据不同的主题、风格、语言等生成各种类型的文本，比如歌曲、剧本、小说等。GPT-4是一个多模态大型语言模型，使用了1.5万亿个参数，比GPT-3.5增加了10倍，也是目前世界上最大的人工智能模型，这一版本的 GPT 已经趋近于AGI（人工智能通用智能），为我们带来了更深层次的 AI 体验。比如我们有很多马的图片通过生成模型学习这些马的图像，从中学习到马的样子，生成模型就可以生成看起来很真实的马的图像并却这个图像是不属于训练图像的。
复制链接

扫一扫