自然语言处理的发展历程

1.自然语言处理发展的7个阶段

序号阶段时间贡献代表人物
1起源期1913-1956思考使用图灵算法计量模型来描述自然语言,描述词语及词语之间的关系。这一阶段停留在理论层面做探索图灵、马尔可夫、香农
2基于规则的形式语言理论期1957-1970形式语言理论的提出,开启了学术界对自然语言结构的研究、建模和解析,从而为基于结构与规则的文本识别、生成和翻译开辟了一条康庄大道诺姆·乔姆斯基、冯志伟
3基于规则、概率模型和预料库的融合期1971-1995隐马尔可夫模型的诞生属于一个里程碑式的重大进展,大大推进了自然语言处理的发展进程。
4浅层机器学习期1996-2005朴素贝叶斯模型等模型弥补传统融合模型方法的不足,展现一定的学习和推理能力,这有助于提高自然语言的综合能力,比如优化文本分类、消除奇艺、增强语义分析、强化情感分析
5深度学习期2006-2017神经网络语言模型能够挖掘到更多隐含信息,多层神经网络能够有效地实现特征工程的自动化,通过逐层初始化的预训练方式解决多层神经网络训练的难题。另一进展是词向量技术和表征方法的提出,提高了文本识别的准确度和精度
6预训练语言模型期2018-2021预驯良模型大大降低了自然语言处理的门槛,让创业公司能轻轻松松的在预训练语言模型的基础上进行优化,并在各个垂直领域的应用中获得良好的效果
7大模型期2022-大模型表现出优异的自然语言生成和推理性能

2.从BERT模型到ChatGPT

2.1BERT模型说明

BERT模型由谷歌于2018年发布,其主要创新点在于提出了预训练的思想,并且使用Transformer的编码器作为模型的基础架构。BERT模型能够解决的实际问题如:语法错误判别、情感分析、语义相近、语义相近评分、问题对语义相近、句子对关系判断、问答、实体识别问题、阅读理解、完形填空。

2.2BERT模型诞生之后行业持续摸索

BERT模型诞生后,由于优秀的性能和开源的特性,其很快应用到各行各业和各类自然语言处理任务中,比如智能客服、语音质检、对话机器人和搜索引擎等,产生了巨大的商业价值。

此时,GPT技术选型嗨处于非主流状态,另外当时行业攻坚克服的方向主要放在自然语言处理上,而非自然语言生成上。

2.3ChatGPT的诞生

与BERT模型相比,ChatGPT在文本生成方面的效果提高十分明显。两者的差异在于BERT模型重点关注的是自然语言处理任务,而ChatGPT重点突破的是自然语言生成任务。

2.3.1InstructGPT模型的构建流程

InstructGPT模型是ChatGPT的孪生兄弟,该模型的构建分为以下3个步骤:

(1)微调GPT-3.0

按照要求收集并标注演示数据,为监督学习做准备。

1)构建Prompt数据集:比如“向小孩解释登月”、“讲讲白雪公主的故事”等

2)对数据集进行标注:主要通过人工进行标注,比如“登月就是去月球”

3)使用标注数据集微调GPT-3:使用监督学习策略对模型进行微调,获得新的模型参数

(2)训练奖励模型

收集训练奖励模型(Reward Model,RM)所需要的比较数据集。标注数据知识对于给定输入用户更偏好哪个输出,依据此进行奖惩,从而训练RM来更好的按照人类偏好进行模型输出。

1)模型预测:用微调过的GPT-3对采样的任务进行预测

2)数据标注,获得比较数据集:对模型预测数据结果按照从好到坏的规则进行标注,获得比较数据集

3)得到RM:用比较数据集作为输入数据训练,得到RM

(3)使用ppo算法更新模型参数

通过强化学习手段,使用PPO算法优化RM,使用RM的输出作为标量奖励,同时使用PPO算法对监督政策进行微调以优化RM。

1)使用PPO算法预测结果:通过强化学习手段,使用PPO算法优化GPT-3并构建新的生成函数,然后输入采样的Prompt数据集,获得模型输出

2)使用RM打分:使用第二步训练好的RM给模型输出进行打分,获得Reward(奖励)打分数据

3)更新模型参数:根据Reward打分数据来更新模型参数

模型构建的第二步和第三步可以循环操作,只需要收集关于当前最佳策略的更多比较数据集,用于训练心得RM,然后使用PPO算法训练新的策略

从以上的InstructGPT的构建流程和方法介绍中可以看到,InstructGPT的构建流程相对简单,并没有涉及特别复杂的方法论和技术,也没有涉及很多原创的理论,更多的是站在巨人肩膀上的工程实践方面的创新

2.3.2ChatGPT和InstructGPT的差异

通过对话形式,ChatGPT能够回答问题、承认错误、对模糊的需求进行询问、质疑不正确的前提和拒绝不适当的请求等。ChatGPT是InstructGPT的兄弟模型,被训练为在提示中遵循指令并输出反馈结果。

模型InstructGPTChatGPT
底座模型GPT-3.0GPT-3.5
数据集指令数据集人工交互标注数据+指令数据集,最后转化为对话数据集
应用场景更适合指令型文本生成任务更适合对话型文本生成任务
推理能力较强
代码生成能力较强
泛化能力中等较强

  • 15
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值