chatGPT

大瑞.

已于 2023-02-23 10:33:13 修改

阅读量2.8k

点赞数 1

文章标签： chatgpt 人工智能

于 2023-02-23 10:32:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ruizhang_/article/details/129175020

版权

对ChatGPT 瞎想

对ChatGPT的理解

网上对它理解专业名词太多，尝试着总结了一下，当然理解可能还有很多错误。主要是分3步

一、训练一个基础模型，它能理解人类问题中所包含意图，并给出答案
缺陷：这个答案是有权重的，部分权重高的答案不一定就是真正的答案

二、训练一个奖励模型

先用基础模型用同一个问题，回答出多个答案，例如先问三次：
问：老板，怎么样才能给我涨工资？
答案1 先吃了我这个饼再说
问：老板，怎么样才能给我涨工资？
答案2 提高自己的专业素质
问：老板，怎么样才能给我涨工资？
答案3 给公司再多创造100块钱价值，可以分你5块钱
然后人工给问题的答案打分。让模型知道哪些是高分的答案。
问：老板，怎么样才能给我涨工资？
答案1 先吃了我这个饼再说 1分
答案2 疯狂干活给老板搬砖 3分
答案3 提高自己的专业素质，找到个好工作，再回来谈条件 4分

三、用奖励模型来训练基础模型，让基础模型回答的更加准确，比如我们抛弃小于3分的答案，这时基础模型回答该问题就只会有答案2和答案3
然后反复循环二、三。逐步提高基础模型质量

自己的瞎想

如果让基础模型直接爬取微信之类的点对点的聊天记录，
下一句就是上一句的答案，直接用答案出现的次数当成权重，不需要奖励模型了，这样没有了人的参与，就可以无休止的不停的跑了，这样会不会训练出一个人精？

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。