大模型能力不断提升思路

1 大模型现状

从目前的大模型研究和能力来看,我觉得大模型的能力已经超过儿童或者可能可以达到青少年的智力水平。(如果OpenAI有在继续开展和解决GPT4之后的研究的话,我觉得按照他们的能力,应该是可以实现的)当然,大模型具有的知识的广度是远远超过人类的,但是在推理能力,很多知识的深度,以及创造力是低于人类平均水平的。

那么,大模型下一阶段的就是如何在这个水平上继续提升自己的能力,一个可以评估的指标就是达到某些领域人类顶尖水平,比如在数学比赛(如奥林匹克竞赛),编程比赛(信息学竞赛)上和其他比赛上达到顶尖人类水平。如果实现了这一目标,那么感觉AGI的就要到来了,或许AI的创造力还不能超越人类。

2 提升大模型能力的思路

2.1 多模态输入和数据质量

从目前的一些信息来看,继续增加数据的来源和质量,应该是一个对比下容易可行的点。也就是增加多模态的数据输入,例如图像,视频,音频等等数据,可以基于多模态输入可以让大模型学会一些之前不容易掌握的能力,比如对于图文的理解能力等。提升数据质量,以便加快训练收敛速度或者有助于降低模型参数量。

2.2 多场景和自博弈学习

类似于人类的学习过程。我们人类有一个聪明的大脑(类似于大模型)。然后不同的人智慧上也有差别,有些人推理能力强,有些人艺术文学方面强,感觉这个类似于大模型的结构或者具体参数值上的差别,而且这一些能力更多是天赋上的。然后我们需要学习大量的专业知识或者其他知识,并且同社会他人接触,与人类价值对齐。

在这个过程中,我们不断成长的能力还需要老师(教授知识和思考方式,评价学习效果),同学(对比学习,学习别人的进步方式)以及父母(言传身教,感觉很多是价值对齐),其他人(直接同社会交互,进一步获得反馈成长)等等的帮助。因此我觉得进一步提升大模型的能力应该还是运用自博弈(self-play)的训练方式。

采用自博弈的话,比如我们目前有两个GPT4模型,我们让其他的一个模型当teacher的角色,一个模型当student的角色。初始化时两者参数完全一致。

我的一个实现思路是,构造一些学习环境或者说场景。比如学习数学的场景。teacher模型提出数学问题,同时teacher模型拥有题目的答案,但是不展示。teacher问student一个数学问题,student需要给出数学问题的答案,然后环境判定答案是否正确,不正确的话,teacher模型收集student的回答,teacher模型给一些提示(比如答案的部分),然后依此希望student模型可以在有限步数内给出正确回答。将这些有限交互样本作为训练样本(回答正确有回报,回答错误有惩罚,不回答惩罚更大些),使用强化学习算法更新student模型参数。(问题可以由易到难)同时记录一些数据,由人工来矫正teacher模型的提示过程,并作为训练数据优化student模型。这样的话,当student模型的回答准确率提升至一定值,则替换teacher模型为最新的student模型,继续以上过程,直到发现能力不在上升为止。

同样的,可以构建其他学科学习场景,构建编程学习场景,构建一些生活多人对话场景(比如购物,文章写作等场景),模型同时在这些场景里面学习,使得模型的能力不断提升。

2.3 实现上的问题

teacher模型怎么利用答案引导student模型给出回答,是一个问题。感觉一个简单方式是使用人类样本SFT teacher模型,让它大致学会怎么给出提示。编程提的环境可能都不需要teacher模型,比如让模型直接提交答案,通过率作为回报一部分,然后,提交前给一些提示,比如需要使用什么数据结构或者属于什么类型题目。

不过感觉在这个场景可能也没必要有teacher模型,直接由环境给出问题和提示可能就行了。

一定需要多个模型的场景,比如买卖商品,一个当卖家,一个当买家,买家希望最小化付的钱,卖家最大化赚的钱。不过思路上是建立一系列的场景,可以让模型在这些不同的场景中学习,不断提升能力。

最后,怎么使用A*算法的思路(如果OpenAI的Q*确实使用到了A*的思路),具体实现上述流程也是一个问题。或许提示就是一种A*思路,因为相当于给了student模型一个引导,让它尽可能往正确方向前行?或者A*用在了怎么给出更接近答案的内容生成上?(这个感觉可以分析一下)

3 更为具体的实现思路或者参考文献

第2部分的内容还只是我的初步想法,再次挖坑,看看细节怎么实现。

后续研读资料

[1] Building a Conversational Agent Overnight with Dialogue Self-Play
[2] A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS
[3] What is Q*?
​[4] Language Models Can Teach Themselves to Program Better

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值