OpenAI 发布多模态 GPT-4 模型,会开创哪些新的研究方向?

作者:JioNLP
链接:https://www.zhihu.com/question/589640227/answer/2936760622
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

短期看GPT4 就是个终结者 。开创不了什么新的方向,倒是把小科研机构,小公司,小实验室的计算机视觉(CV)算法相关人员全都卷死了。没活路了。

之前我写过一篇ChatGPT 如何把 NLP 相关从业人员的手头工作卷没了的文章,获得了很多认可。但我发现还是有很多 CVer 不够清醒:GPT4 对图像的冲击同理

ChatGPT这么强,会影响NLPer的就业环境吗1527 赞同 · 135 评论文章

一、ChatGPT 对 NLP 行业的冲击

几个月前 ChatGPT 出来之后,已经证明了一件事,传统NLP 分领域、分任务进行finetune 构建的模式已经完全被丢弃了。

ChatGPT 在模型结构原理上并无特别突出的不同,通过超大规模的算力+数据,外加强化学习模式,几乎把传统 NLP 的各种任务、各种领域都吊打了一遍。

上面这套打法,OpenAI 只不过又用在了 CV 身上,提现在了 GPT4

二、CV 行业的现状

最早的 CV 的学习例子就是对数字的分类任务,主要依赖 MNIST 数据集。这是很多算法工程师和研究人员的入门课程。这个数字分类任务就是一个非常典型的分领域(阿拉伯数字识别)、分任务建模(图像分类)的模型。

时至今日,产业界的图像算法依然是按此方式来推进的。

确定特定的任务 => 收集数据 => 标注数据 => 训练模型

有非常多的任务,猫狗分类、图像分割、安全帽检测、火灾检测、人群密度检测。每一个都需要按照上面的方式来一遍。简而言之,就是AI模型的定制化,手工业化

图像也有领域问题,给猫狗分类的模型输入一张狐狸的照片,模型依然会强行给狐狸分类成猫、或狗。换句话说,模型对输入的图像数据有分布限制,模型也不具有对各种图像有充分的泛化能力。

但是图像里面有几个非常捉急的问题,这些问题比 NLP 还要严重:

1、数据过于难获取

比如,我们做一个火灾检测的模型,需要将图片中的火灾情况按框进行标注。

为了提升模型的准确性和召回等指标,就需要大量的火情场景数据集,楼房着火、平房着火、厂房着火、山林火灾、农地烧荒等等。每一种场景都需要大量的数据集。

但是火灾的发生频率是非常低的,即便真的有火灾,也很难有人实地拍摄(会被骂为何不帮忙救火,而站在一旁拍照);站在平地拍摄,和无人机在空中拍摄的视角又有不同,造成数据分布不同;我们不可能真的为了寻找火情数据集,真的把一栋房子点燃。以上这些原因,造成图像的数据获取的极为困难

2、任务复杂度过高

传统的常见的图像任务,一个是分类,一个是检测。这两者是在实际当中应用最多的任务,一个YOLO系列模型,不知养活了多少公司。

一般认为,图像任务多停留在感知,而 NLP 则聚焦于认知。针对火灾识别,一般标注逻辑是:见到火焰,则认为模型存在火灾。那么,下图存在火灾吗?

很明显,图片中压根没看见任何火焰,火焰也无固定形状,想要做检测任务都非常难,这体现了传统 图像 模型的建模的局限性

另一方面,这说明了,图像任务和人的逻辑认知、推断是分不开的。还是例子:

如何判断图片中是否存在火灾?非要看到火焰才确定是火灾吗?有烟也可以确定是火灾吗?只有烟就可以确定存在火灾?那么,下图呢?这里到底有没有发生火灾?

3、算力

ChatGPT 证明了一件事,哪有什么人的智能?只要模型大,数据量多,模型就能充分理解人类的语言,那个文字组织能力,翻译能力,绝对强过绝大多数人类。

GPT4 只是更进一步证明了这一点,包括图像和语言。

你想做复杂的任务,理解更深的语义联系,就需要 更大的模型。更强的算力。这几乎是个铁律。

确实有边端智能这个方向,但是它无法完成复杂的AI 智能任务。仅仅能围绕人脸识别、车辆检测、人的检测等等简单任务上开展业务。

目前很多公司里的 CV 项目依然停留在几张卡、几十张卡,分门别类,针对不同任务、不同数据集,训练很多个任务的阶段。这种做法就是定制化,堆叠人力,从而容纳了大量的 CV 从业者,高效开办了各种 CV 实验室

GPT4 对传统 CV 的冲击

通过图文多模态模型,我相信过去的那种定制化建模的 CV 业态将会彻底改变。

任何任务,都可交给 GPT4 输出结果。从此,有任何理解任务,交给 GPT4 就可以了。我们不用担心针对特定任务的数据量难以获取、数据量少,任务太复杂,等等。

我非常清楚,现在市面上很多的中小型公司,定制化了非常多的模型,对外宣称业界领先(反正很少有人真的去验证),效果仅限于训练和验证数据集,完全不可以拿到工业界去测试,一旦测试露出马脚,就以数据量少,数据分布不均衡,测试方法不对做defence。

实际上,这些情况,大家也都心知肚明。CV 的定制化阶段,更多地像是吹出的漂亮的泡沫,一戳就破。

这个泡泡,被GPT4 戳破了。

对 CV 人员的影响

1、大模型的限制

算法人员有两个非常强的依赖,算力和数据。我相信绝大多数从业人员都明白这个道理。

GPT4 用了多少数据呢?技术报告里是这么讲的,他们的小模型训练所用的算力要比GPT4 小了1000~10000倍。

那 GPT4 的算力是多少呢?(●^◡^●)这个体量的模型有多少公司玩得起?评论区有人讲

我看了都想笑,怎么会这么拎不清?不是你算法牛逼,论文牛逼,产出的产品就牛逼。

2、新工业革命

CV 算法工程师,在未来,一定是需求锐减的。这就是一次工业革命,是机器替代人的脑力的工业革命

这次的工业革命,称其为 第四次工业革命,毫不为过。它和 蒸汽机替代纺织女工毫无区别。中小公司的算法工程师们,高校里的科研教授、副教授、研究生们,都是那群即将被替代的纺织女工。

这就是旧泡沫的破裂,新模式的诞生。人工智能行业,人人都可以了解,人人都可以使用。但只有极少数人可以参与其中。这就是一个高度垄断的行业。

是只有微软、google、Openai、国内百度等垄断巨头能参与的领域。

前段时间,中国成立了国家数据局,很明显,人工智能比拼的就不是算法和论文。GPT4 的所谓论文,标题就非常直接,自称为技术报告,就不称之为论文

这就是在明确告诉全世界,人工智能不是谁发个论文就算是参与了,领先了。人工智能就是数据和算力的比拼。

未来发展方向

1、CV 和 NLP 的未来

不论是中国人、美国人、法国人、日本人、埃及人,见到苹果,虽然叫法不同,但是大家都能认出,那是一个苹果,可以吃。见到火灾,大家都会惊呼救火。见到杀人场景,都会发出愤怒和悲叹。

换句话说,全世界所有人,共享了一套世界观。

而人工智能所作的工作,就是在替人类理解这个世界。既然世界观一致,那么,一个 GPT4 模型,就足够全世界的人使用了。

所以,CV 领域的继续研究、NLP 的研究,很难再找到别的路径了。就算找到了,想实践,那也得能进入巨头企业才行。

2、机器人

第一次、第二次、第三次工业革命,其实都在替代人的体力,第四次工业革命,也就是人工智能,替代了人的脑力。它并非100%替代一个人,但它能替代程序员的20%、替代客服的50%、替代材料编写员的80%,就已经意味着社会的变革

网上有图,程序员失业了该怎么办:

大家有没有想过,为什么营业员、保洁、快递员这些岗位没有被替代?

因为这就是几次工业革命没能成功的地方。也就是,机器人接到通用多模态 AI 上面。

AI+机器人+某个细分应用场景,可能是小团队或公司可以做的,AI只是提升某个具体场景应用中的机器人专业智能,而不是通用智能,竞争没那么激烈,又可以借AI和机器人的风口,就像之前的 互联网+的套路

机器人完成的功能多种多样,各有不同,定制化就意味着手工业化,意味着容纳大量的工作岗位

看明白了吗,各位?我的另一篇文章有评论如下,自从ChatGPT 出来后:

同样的话,送给各位 CVer 们。可以关注我的公众号 JioNLP。

  • 17
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值