基于李宏毅老师最新的解读
1)学习如何做文字接龙 想说什么就说什么
输入不完整的句子 GPT输出接下来可能的文字 例如 ”你好“–>”美“
搜集数据集 例如“和人类说话” “跟”–>“人“ ”跟人”–>“类“ ”跟人类”–>“说“
整个过程不需要人工介入
说明:
“你好”–>“美” “棒” “吗” GPT的输出是几率分布 随后从几率分布最后中随机抽取 几率较高较为容易被抽取 几率较低比较难被抽取 因此GPT每次一的输出都是不一样的 文字接龙的结果具有随机性
有什么用:
已经可以进行回答问题
例如 中国的首都?–>北 中国的首都?北–>京
但是每次输出都不同 中国的首都?–>北京(整合的结果 每次产生一个字)
中国的首都?–>谁可以告诉我呀
所以如何引导GPT产生有用的输出呢?
2)人类老师引导文字接龙的方向
人类提出问题并给予答案 例如 中国的首都?–>北京 再将这些数据给GPT训练
问题:
是不是要人类提供所有的问题?
不需要 因为这些答案本来GPT就已经可以产生 只不过GPT不知道哪些是人类希望它产生的 因此每种问题只需要提供几种范例就足够了
3)模仿人类老师的喜好
中国的首都?–>北京
中国的首都?–>谁可以告诉我呀
经过第二步 人类老师告诉GPT“北京”是较好的答案
训练一个模仿老师的模型 Teacher Model
问题+答案 Teacher Model 可以输出一个分数 模仿人类评分的标准
分数(中国的首都?–>北京)> 分数(中国的首都?–>谁可以告诉我呀)
4)用增强学习向模拟老师学习
经过第三步 中国的首都?–>谁可以告诉我呀 Teacher Model 给出低分
增强学习 中国的首都?–>(GPT)北京
中国的首都?–> 北京 Teacher Model 给出高分