ChatGPT 的时代 AI技术应用畅谈

目录

技术

新范式:生成一切

自监督

遵循自然语言指令

强化学习

从“微调”到“提示词”优化

“问一个好的问题”

Chain of Thought

Few-shot Prompt

复杂的组合应用

激发模型能力

ChatGPT 的能力从何而来

知识的获取与修改

多模态

连接真实世界

思考“大力出奇迹”

数据用尽?

可解释机器学习

AGI 随想

最近关于 AIGC,ChatGPT 等方面的消息和文章非常多,无论是从没了解过机器学习的圈外人士,还是每天跟模型打交道的专业从业者,都无不被 ChatGPT 的能力震惊。几年后来回顾这个事件,应该会成为通向通用人工智能/技术奇点的一个关键里程碑。这两个月我也不能免俗刷了很多相关文章和视频,过程中发现了不少颠覆我原有认知的信息。这篇文章主要是站在“巨人们的肩膀上”,从各个角度来聊聊我的收获和一些思考。

这也是我第一次尝试付费文章的形式,看看接受度如何 :) 本文的内容大致会分成技术,商业化和提升个人生产力三个角度来展开,每个部分主要内容都是个人的 key takeaways 和思考,同时把我目前看到的比较好的参考文章列出来。非常欢迎有不同想法的同学来一起探讨。从受众角度,应该比较适合:

  1. AI 领域从业者,想了解 LLM 和 AGI 的最新进展以及对自己工作的影响。但不太适合那种已经看了几十篇 LLM 领域论文的专业大佬,那样的话我这边写的内容应该你都很熟悉了。
  2. 平时用 Google,知乎等网站比较多的知识型工作者(尤其是软件工程师),对于 生产力工具 非常感兴趣的同学,这篇文章应该也会比较合你胃口。
  3. 有创业或者相关领域投资方面想法的同学,但这方面的不确定性很强,个人见解仅供参考。
  4. 想了解通用人工智能对我们的工作,学习,生活的各种影响的其他同学,如果你不缺这几块钱的话 :)

好了,话不多说,先让我们来看下 ChatGPT 背后的神奇技术与 OpenAI 的远大 vision。

技术

这部分先推荐一篇来自张俊林老师的文章 通向 AGI 之路:大型语言模型(LLM)技术精要。一般来说,张老师如果在某个领域写了篇文章,在很长一段时间里我都不会考虑单独写这个话题了,贡献非常有限 。这部分会快速列举一些我之前不知道的或者令人意外的信息和思考角度。

新范式:生成一切

如果去读一些经典的机器学习教材,我们会发现大多数的算法建模任务都是以“输入信息,输出判别”的形式来思考的。例如给定一句话,希望模型来判断这句话表达的是正面还是负面的情感,这就是一个经典的分类问题。而在 NLP 中,又有很多“生成”性质的问题。例如提一个问题,希望模型给出答案。这种任务上的多样性,导致以往我们需要针对每一个任务来分别设计数据收集,模型训练流程,很难进行复用。当年 BERT 模型推出时,令我印象最深刻的也是它对于多任务统一的巧妙设计。

但到了以 GPT 为代表的大语言模型阶段,一个显著的思维方式变化是我们其实可以通过“生成”来解决一切问题。例如还是上面的情感分类问题,我们可以直接把语句输入给模型,并提问“这句话表达的是正面还是负面的情绪”,然后让模型对于上面的一整串输入,去生成一个输出回答。这样无论是分类,回归,还是生成类任务,都可以统一到一种框架下来实现了,也就可以使用统一的预训练模型来处理,非常优雅。这个生成一切的思维转变,也影响到了后面我们会提到的从 fine tune 思路到 prompt engineering 的思维转变等。

回过头来看,生成式的范式的确是很自然的想法,但在大多数领域我们目前都还做不到这点。比如我们能否输入一连串历史天气信息,让模型自动去生成未来几天的天气预报;输入用户的历史浏览、购物信息,生成出可能感兴趣的商品;输入一张图片,生成出图片中的物体名称及位置信息等等。如果这些任务都能以生成式的方式去做,或许未来能进一步形成多模态的预训练模型,解决更多领域的实际问题。

自监督

GPT 背后的模型原理出奇的简单,就是通过一系列输入文本,去预测后面会出现的文本是什么。大佬 Andrej Karpathy 在这个视频里 手把手教你如何从头实现 GPT,如果对实现细节感兴趣的同学可以参考。这种自监督的模式使得我们能以较低成本获取海量的训练数据,例如 Wikipedia,出版书籍,新闻,各种公开 blog,Stack Overflow,GitHub 等等。而前面提到的一些其他类型的如图像/视频理解之类的问题,我们就比较难获取类似数量和质量的训练数据了。

当然也正是由于 GPT 背后的思想如此的简单,很多人(包括我在内)在一开始都觉得深度学习的本质并没有什么突破,仍然是在一堆数据中去拟合一个概率分布,后续在“生成”时做个采样而已。像各种知识概念,逻辑推理等,都是无法从当前的技术路线中产生的,需要融合像知识图谱,符号推理等手段才行。但在用过 ChatGPT 之后,相信大多数人都开始觉得这种简单的自回归模型或许真的能够带我们在通用人工智能的这条路上走得很远。

遵循自然语言指令

沿着生成一切的思路,一个自然的想法就是让模型能够“听懂”人类的指令,并做出期望的反馈回答。OpenAI 和 Google 都在这个方向上做了不少研究工作,略过技术细节,这些研究的目标是能够达到:

  • 让模型理解用户的意图是什么,而不只是简简单单做文本的“续写”输出。
  • 对于模型没有见过的问题,也能很好地理解与回答(zero-shot)。
  • 符合人类的价值观,例如输出的内容中应该遵循事实,语气友好,减少“有害”内容等。这一点 ChatGPT 做得格外好,很多人都觉得这是一个可以让自己孩子与之交谈学习的聊天机器人。很多其它大厂产品在这块都受到了很大的挑战。

具体可以参考 OpenAI 这篇文章中的一些例子

Instruct Tuning 的效果

打一个不太精确的比方,只用自监督训练形成的大语言模型相当于把互联网上所有的高质量文本信息都看了一遍,拥有了大量的知识,并且可以模仿人类的方式来续写文本,但它从来没有跟真实的人交互过,因此也无法理解人类的交互意图。通过人类指令和期望回答方面的学习,模型在“续写”能力上增加了“理解力”,从而成为一个真正可用的多任务通用模型。

强化学习

在做上述的人类指令学习方面,InstructGPT/ChatGPT 引入了人工标注与强化学习技术(RLHF)。从技术细节上来看,有几个比较有意思的点可以讨论。

如果让你来做人类指令的学习,你会怎么实现呢?一个最直观的思路肯定是给定一些问

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值