Chat GPT是怎么形成的--GPT社会化的过程

基于李宏毅老师最新的解读

1)学习如何做文字接龙 想说什么就说什么

输入不完整的句子 GPT输出接下来可能的文字 例如 ”你好“–>”美“

搜集数据集 例如“和人类说话” “跟”–>“人“ ”跟人”–>“类“ ”跟人类”–>“说“

整个过程不需要人工介入

说明:

“你好”–>“美” “棒” “吗” GPT的输出是几率分布 随后从几率分布最后中随机抽取 几率较高较为容易被抽取 几率较低比较难被抽取 因此GPT每次一的输出都是不一样的 文字接龙的结果具有随机性

有什么用:

已经可以进行回答问题

例如 中国的首都?–>北 中国的首都?北–>京

但是每次输出都不同 中国的首都?–>北京(整合的结果 每次产生一个字)

​ 中国的首都?–>谁可以告诉我呀

所以如何引导GPT产生有用的输出呢?

2)人类老师引导文字接龙的方向

人类提出问题并给予答案 例如 中国的首都?–>北京 再将这些数据给GPT训练

问题:

是不是要人类提供所有的问题?

不需要 因为这些答案本来GPT就已经可以产生 只不过GPT不知道哪些是人类希望它产生的 因此每种问题只需要提供几种范例就足够了

3)模仿人类老师的喜好

中国的首都?–>北京

中国的首都?–>谁可以告诉我呀

经过第二步 人类老师告诉GPT“北京”是较好的答案

训练一个模仿老师的模型 Teacher Model

问题+答案 Teacher Model 可以输出一个分数 模仿人类评分的标准

分数(中国的首都?–>北京)> 分数(中国的首都?–>谁可以告诉我呀)

4)用增强学习向模拟老师学习

经过第三步 中国的首都?–>谁可以告诉我呀 Teacher Model 给出低分

增强学习 中国的首都?–>(GPT)北京

​ 中国的首都?–> 北京 Teacher Model 给出高分

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值