要问2023年的科技领域什么消息最博人眼球,那么22年底发布、23年迅速跻身顶流的ChatGPT一定占有一席之地。随着ChatGPT的“爆火出圈”,国内外大厂纷纷布局「生成式语言模型」研发赛道,各类应用也如雨后春笋般层出不穷,让人眼花缭乱,甚至一度有人感叹:“通用人工智能时代已经来临!”
ChatGPT的确很火,火到什么程度呢?作为一款面向普通用户的产品——也就是常说的to C,在发布仅5天后就获得了100万用户;两个月后,这个数字增长到了1亿——上一个最快到获得1亿用户的应用是俗称“海外版抖音”的TikTok,用了9个月。
图源:https://www.demandsage.com/chatgpt-statistics/
Instagram Threads能在2天就能获得1亿注册用户,这与Instagram的分流是离不开的,与ChatGPT是完全不同的性质。
另外一个需要关注的点是,上图中除去ChatGPT是一个聊天机器人外,其余大都是社交类APP,外加一个音乐APP(Spotify)和一个视频APP(Netflix)。也就是说,ChatGPT所提供的服务的内容相对来说是显得很“单调”的——这就更加突出其如此迅速的用户增长的不同寻常了。
与此同时,我认为这也为其现在的全球流量的下降提供了一种解释。
数据表明,ChatGPT的流量增速从今年5月份开始放缓,随后变为负值:6月份全球流量下降了9.7%,独立访客量下降了5.7%1。这一方面是由于其他的生成式模型纷纷上线,如Google的Bard、百度的文心一言等,另一方面,也是我的观点,在于用户新鲜感的消失。
毕竟,它不像其他APP那样,能够提供源源不断的、丰富的内容,用户只需要动动手指就可以在其中花费一整天(刷过抖音的人大概都懂),ChatGPT的使用需要用户一直与其进行文字交互,这无疑更加“费力”。另外,在于ChatGPT交互一段时间后,用户就会从最初的惊叹状态冷静下来:它不是无所不知的,它的回答似乎有固定的格式,它甚至会“胡说八道”——这会加速消耗用户的新鲜感。与此同时,人们也逐渐意识到,一个会聊天的机器人为日常工作带来的提升似乎也有限度。
除了上面提到的这些外,还有一个原因也不容忽视:用户逐渐掌握了与ChatGPT对话的技巧后,往往通过一两次对话就能够获取想要的信息(或是知道ChatGPT不能提供那些信息转而去寻找其他途径),从而造成流量的降低。
作为一个自然语言处理技术爱好者、「资浅」机器学习工程师,从ChatGPT的发布伊始我便在持续关注它的消息,也目睹并经历了国内外利益相关者在风口上的“狂欢”:从代理注册到套壳应用,从散布焦虑到浑水摸鱼,不可谓不精彩。如今ChatGPT的流量趋于稳定,国内相关的产品也相继发布,关于ChatGPT类产品及相关的技术与应用,我想谈谈我的感受。
什么是「大模型」
因工作需要,在自然语言处理领域,我对从传统的句法文法分析到现代的基于统计理论的语言模型都做过一些调研,也研究过一些诸如Bert、Transformer等模型的源码,可以说是系统地了解了这门科学的发展史。早在ChatGPT发布之前,人们就已经意识到,语言模型的参数越多,训练出来的效果往往越好。因此,越来越多的机构开始尝试提升模型的复杂度和参数量,“大规模语言模型”(Large Language Model,LLM)逐渐成为各个厂商的首选。直到ChatGPT的惊艳登场,一个新的中文专有名词:「大模型」诞生了。
上图来自一份2020年的研究报告,从图中不难看出,百万级别(M)参数的模型已经不够看了,现代模型的参数量早就达到了恐怖的十亿级别(B)!其中,GPT-3更是一骑绝尘,其参数量更是达到了难以想象的1750亿!单是训练一遍如此大规模的模型所需要花费的成本就高达400万美元。即使GPT-3没有闭源,这样高昂的成本也足以阻拦99.99%的研究人员和机构了。
因此,大模型,乃至自然语言处理整个领域,已经变成了巨头公司的专享游戏了。自然语言处理,还真是“想说爱你不容易”啊!
GPT与ChatGPT
对于没有技术背景的读者来说,可能有些迷惑:上图中既有GPT,又有GPT-2,还有GPT-3,它们都是什么?与ChatGPT又有怎样的关系?
GPT的英文全称是“Generative Pre-trained Transformer”,译成中文可以是“生成式预训练转换器”,说白了它就是一个的具体神经网络模型,由由OpenAI公司开发,给它一个输入,它可以生成对应的输出——所以叫“转换器”,利用这个模型可以完成一些自然语言处理任务,例如文本翻译、摘要生成等等。
GPT-2和GPT-3则是对GPT的优化,与上一代相比具有更加复杂的模型结构以及更多的参数。当然,也在相关任务中取得了更好的效果。
而ChatGPT,则更像是一款产品,它是OpenAI公司开发的一个给普通用户使用的聊天机器人。它所用到的底层技术与GPT-3有所不同,OpenAI公司称之为GPT-3.5。
总结来说就是,ChatGPT是一款互联网产品,而GPT则是它用到的底层技术。
OpenAI公司(对外宣称的)最新的GPT技术已经迭代到了4.0版本,与上一个版本相比,主要有如下改进:
- 参数量的提升。据未经证实的消息,其参数量已经达到了万亿级别,可能是100万亿。
- 多模态输入。GPT-4.0如今可以将图片作为输入了,而之前的模型只能接收文本输入。
- 更长的词汇量。这意味着你可以输入更多的词汇,它给出的答案也更加详细。甚至你可以将一个网页发送给它,它能直接读取里面的内容作为输入。
- 更多语言的支持。虽然GPT3.5也支持多种语言,但4.0在这方面的能力更强。
显然,由GPT-4.0支持的ChatGPT功能无疑会更加强大。
概率统计——大模型的基石
毫无疑问,拥有这么多参数的大模型,其结构一定极其复杂的,对于大多数人来说,也几乎不可能完全理解它。然而,这并不妨碍我们尝试从原理的角度去理解它为什么可以完成一系列自然语言处理任务。
我从一个简单的例子入手。
几乎所有的中国小学生在语文课堂上应该都学过如何将一堆打乱顺序的词语组成一句通顺的话。现在,假设给定如下词语,请读者尝试将其组成一句话:
本·伯南克 媒体 7000亿 美联储 昨天 汽车公司 上百家 救助基金 主席 保险公司 的 告诉 银行 借给 和 将 美元
单纯从组合方式上来说,有很多种,请看以下两种组合方式:
- S1:美联储主席本·伯南克昨天告诉媒体,将借给上百家银行、保险公司和汽车公司7000亿美元的救助基金
- S2:本·伯南克美联储主席昨天告诉媒体将7000亿美元的救助基金借给银行、保险公司和汽车公司上百家
相信大家能够得出一致的结论:S1的组合方式比S2更加合理。为什么是这样呢?读者可能会说,因为S1读起来更加通顺啊。
没错,更加通顺就是我们做这类题的关键,也是最终目标。但“更加通顺”是一种人类主观上的感觉,让机器利用这种感觉来做题显然是不现实的,机器只能接收具体的东西。因此,我们首先需要将这种感觉用数学语言定义出来:S1比S2更加通顺,其实就是指在全部人类语言组成的句子库中,S1出现的概率要比S2大。即:
P
(
S
1
)
>
P
(
S
2
)
P(S_1)>P(S_2)
P(S1)>P(S2)
“句子库”是一个略显不专业的说法,在自然语言处理领域,一般称之为“语料库”。
由此,我们得到了著名语音识别和自然语言处理专家贾里尼克提出的基于概率统计的自然语言研究框架的精髓,即一个句子是否合理,取决于其出现在人类自然语言中的概率的大小。
仍拿上面的例子来说明,一般不太会有正常人按S2的方式来组合上述词语,而更多的人会选择S1,这也就是说,S1出现在自然语言中的概率要比S2的大,所以,S1要比S2更合理。
本质上说,大模型仍在采用这个框架。
还记得前文提到的「生成式」和「预训练」吗?所谓「预训练」,就是拿非常多的人类的自然语言文本来训练一个模型,目的是让这个模型“学会”什么样的词语组合方式所生成的句子是通顺的、合理的。用数学语言表达就是,学习各种词语组合的条件概率。
当模型训练完成后,就该「生成式」发挥作用了。假如你问大模型一个问题:姚明的身高是多少?它给你的回答是:姚明的身高是2.26米。它生成这个答案的过程其实是逐步进行的:它首先判断出要回答你的问题,第一词用“姚明”概率最大——最合理,其次用助词“的”,然后是“身高”,最后是“2.26米”。也就是说,大模型通过预训练的结果,先生成最有可能得第一个词语,然后重新计算概率最大的词作为下一个要输出的词语……以此类推,直到生成全部输出。
当然,原理虽然简单,但实际工程化的时候仍需要解决非常多的细节问题,其难度也要比理解上述理论要大得多。
不仅仅是文本
实际上,在深度学习的发展过程中,对于图像的处理要比对于文本的处理发展的更快,取得的成果也更多。这是因为计算机只能处理数字,而存储在计算机中的图像实际上就是由数字表示的像素组成的,但要把自然语言表示成能代表本含义的数字,不是一件容易的事。
在图像处理领域,早就有类似“图像风格迁移”之类的应用了:可以参照名画的风格将自己的照片进行处理,以生成类似风格的图像。
在有了大模型之后,利用「生成式」的方式,可以实现更加惊艳的操作:通过文本描述(提示词),让模型生成对应的图片。相关的产品也有不少,其中处于头部且用户广泛的,是一款名为Midjourney的产品。它可以根据用户的提示词来生成各种风格的图片,还支持通过精细化的描述来对图片进行微调。下面展示几张该产品的成果:
可以通过Midjourney在Discord中的服务器来调用它的服务(收费),也可以查看其他人的作品。相信我,你会为它的能力而感到惊叹的。最新版本的Midjourney已经可以将图像进行放大缩小等操作,听说一些脑洞大开的人已经着手在Midjourney上制作电影了!
风口上的“舞蹈”
由于一些原因,ChatGPT在国内是无法访问的。因此,一些惯于在新科技浪头弄潮的人敏锐地捕捉到了商机,开始利用信息差在国内赚钱,所采用的方式大概分为套壳和代理注册两种。
ChatGPT是提供API的,这就意味着用户可以不必非得在它的产品界面进行交互,只要拿到API,稍作包装就可以将ChatGPT嵌入到任何可以上网的软件里。于是,一些人就通过注册国外的服务器,对ChatGPT的API进行包装,然后为国内的用户提供服务。当然,能够为访问不了ChatGPT的普通用户提供一个使用它的平台,也是很好的一件事,适当收费也无可厚非。但硬要说成是具有完全自主知识产权的产品,多少就有点欺诈的成分了。
套壳属于傻瓜式应用,普通用户只需要付钱就可以享受到服务,无须其他操作。还有一类服务是代理注册,这主要是面向有一定的技术基础、能够「科学上网」的人群(比如我)。注册ChatGPT是需要国外的手机号来接收验证码的,但一般人不会有这类手机号,因此,代理注册的人宣称你只需要提供自己的邮箱,他就可以帮助完成注册。后期的登录也完全是用的自己的账号,安全性更有保障。在淘宝上搜一下,就会发现有很多类似的店铺,收费大都在几十块左右。
我一开始也差点选择了代理注册,要不是贫穷使我犹豫再三,我也不会发现原来有专门做验证码服务的俄罗斯网站。简而言之,你只需要在这个网站上充值一笔费用,就可以使用它提供的各个国家的虚拟手机号来接收验证码,这就解决了注册ChatGPT需要手机验证的问题。
我在该网站上充值了1美元,目前已经成功注册了两个ChatGPT账号,余额大概还剩一半。
我发现,每当一个新技术、新方法崛起的时候,总有一些人和机构打着赋能生产的旗号来进行大肆宣传,其到底是何居心,我觉得挺耐人寻味的。
但话又说回来,能挣到钱,谁还问你居心呢?再说了,那不是也为新技术的推广提供了一些宣传力量么?
国产大模型
我一直不觉得借鉴是一件不能拿上台面说的事情,特别是别人做得好的地方。
意识到大模型的潜力后,国内以百度为代表的巨头公司也纷纷开始了大模型自研之路。我全程观看了百度的文心一言发布会,也拿到过内测账号进行了试用。其最初效果,我感觉相较ChatGPT至少差了一个大版本。当然仁者见仁,在中文处理方面,或许它真得要优于ChatGPT。而且,它已经经过了多次的更新,其能力也确实有了显著的提升。
还有其他的高科技公司/科研机构也陆续发布了自家大模型产品,像阿里的通义千问、科大讯飞的星火大模型、复旦大学的MOSS……至于还在路上尚未发布的,那就更多了。整体来说,国内大模型的研发呈现出千帆竞发、百舸争流的局面,但也必须认识到我们和世界一流的差距,道阻且长,希望国产大模型真得也能够在全世界挣来属于自己的骄傲吧。
对了,听说百度出了一个「千帆」大模型平台,据说可以将市面上的大模型进行整合,以统一管理,并为用户提供服务。这个名字可能是出自“沉舟侧畔千帆过”的诗句,给人一种万木争春的感觉。衷心希望这样的愿景能够早日成为现实。
重新定义工作?
如果单从大模型给人的震惊程度来看,它无疑是成功的,这也使得许多人认为AI即将取代人类,进而开始对自身职业的稳定性产生担忧。
必须承认,技术的变革的确会为整个社会的职业分工带来影响,甚至是重新洗牌,但若因此而产生恐慌,甚至拒绝新技术的发展,属实有些过度反应了。
以大模型为例,人们惊叹于其逼真的文本回复时,首先想到的可能就是它将会取代人工客服。实际上,「智能客服」的概念早就出现了,且在各个领域均已有应用。例如,在电商平台进行购物时,如果你点开客服想要咨询一些问题,智能客服系统首先会根据你的输入内容来推荐你可能要问的问题,如果你点击了某个推荐问题,那么它就能快速给出回复。通常来说,针对某款商品的问题范围是相对固定的,当客服系统收集到了足够多的问题样本时,要做到对新用户提问的精准回答并不是什么难事。换言之,如果通过现有的智能客服系统遇到了无法解答的问题,那么即使该系统后端有大模型作为技术支撑,可能也无法降低用户寻求人工帮助的频率。
此外,前文已经提到过,大模型并不是无所不知的,甚至有时候会“胡说八道”。我认为这主要有两个原因:
- 它的知识是从互联网上学习到的,而网上的内容真假都有,它只能给出概率最大的回复,但无法保证这回复一定是正确的。
- 模型的规模导致了现阶段无法做到对其进行高频率的训练,因此它的知识来源是具有时间限制的。例如,ChatGPT就无法知道2021年9月以后得事情,因为它的训练数据就截止到那个时候。
因此,与其为“大模型会取代人工”而惶惶度日,不如静下心来研究一下如何利用大模型来提高自身的竞争力。毕竟,“AI不会取代你,但会用AI的人可以。”
作为一名程序员,我在日常工作中几乎把ChatGPT当成了Google来用:遇到了不懂的问题首先在ChatGPT上问一遍,它会给出一些具有明确方向性的回答,有了这些方向,再去找对应的资料来确定答案。
此外,AI辅助编程也已经非常成熟(我甚至觉得关于编程的问题是大模型最了解的领域),我现在已经离不开Copilot了。但这并不意味着它可以完全取代程序员,代码的核心部分仍要你自己动脑筋写出来,它所做的只不过是根据你已写出来的代码来推断你讲要写的内容罢了。
受限于自身的行业,我对大模型可能在其他领域会产生怎样的影响并没有非常深入的思考。不过,值得注意的是,微软已经将大模型嵌入到最新的Windows11操作系统中了,将来的电脑用户将会更加直观地感受到AI对生活和工作产生的影响。以文案工作为例,将来人们可能不再需要花费数天的时间来美化一页PPT,相反,只需要告诉AI要展示哪些内容,它就会在几秒钟内生成数个可选的方案;对于那些「会议型」企业,只需要将会议发言转成文字,通过大模型就可以快速生成会议纪要,从而省下了大量的工作时间。
雨馀时候夕阳红
时代的发展依赖于技术的进步,至于大模型技术到底能在多大程度为推动社会的发展,现在下结论还为时尚早。但有一点不可否认,如果一个企业或个人无法在风口来临前做好相应的准备,那么它/他/她轻则无法趁机获得更好的发展,重则被时代的浪潮所抛弃,成为那平地上的“几人”,看别人腾飞“碧霄中”。
https://www.similarweb.com/blog/insights/ai-news/chatgpt-traffic-drops/ ↩︎