OpenAI 发布多模态 GPT-4 模型，会开创哪些新的研究方向？

最新推荐文章于 2025-04-01 10:06:59 发布

卜大伟

最新推荐文章于 2025-04-01 10:06:59 发布

阅读量1k

点赞数 17

文章标签：人工智能 chatgpt

本文链接：https://blog.csdn.net/a519781181/article/details/139811082

版权

作者：JioNLP
链接：https://www.zhihu.com/question/589640227/answer/2936760622
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

短期看，GPT4 就是个终结者 。开创不了什么新的方向，倒是把小科研机构，小公司，小实验室的计算机视觉（CV）算法相关人员全都卷死了。没活路了。

之前我写过一篇ChatGPT 如何把 NLP 相关从业人员的手头工作卷没了的文章，获得了很多认可。但我发现还是有很多 CVer 不够清醒：GPT4 对图像的冲击同理。

ChatGPT这么强，会影响NLPer的就业环境吗1527 赞同 · 135 评论文章

一、ChatGPT 对 NLP 行业的冲击

几个月前 ChatGPT 出来之后，已经证明了一件事，传统NLP 分领域、分任务进行finetune 构建的模式已经完全被丢弃了。

ChatGPT 在模型结构原理上并无特别突出的不同，通过超大规模的算力+数据，外加强化学习模式，几乎把传统 NLP 的各种任务、各种领域都吊打了一遍。

上面这套打法，OpenAI 只不过又用在了 CV 身上，提现在了 GPT4。

二、CV 行业的现状

最早的 CV 的学习例子就是对数字的分类任务，主要依赖 MNIST 数据集。这是很多算法工程师和研究人员的入门课程。这个数字分类任务就是一个非常典型的分领域（阿拉伯数字识别）、分任务建模（图像分类）的模型。

时至今日，产业界的图像算法依然是按此方式来推进的。

确定特定的任务 => 收集数据 => 标注数据 => 训练模型

有非常多的任务，猫狗分类、图像分割、安全帽检测、火灾检测、人群密度检测。每一个都需要按照上面的方式来一遍。简而言之，就是AI模型的定制化，手工业化。

图像也有领域问题，给猫狗分类的模型输入一张狐狸的照片，模型依然会强行给狐狸分类成猫、或狗。换句话说，模型对输入的图像数据有分布限制，模型也不具有对各种图像有充分的泛化能力。

但是图像里面有几个非常捉急的问题，这些问题比 NLP 还要严重：

1、数据过于难获取

比如，我们做一个火灾检测的模型，需要将图片中的火灾情况按框进行标注。

为了提升模型的准确性和召回等指标，就需要大量的火情场景数据集，楼房着火、平房着火、厂房着火、山林火灾、农地烧荒等等。每一种场景都需要大量的数据集。

但是火灾的发生频率是非常低的，即便真的有火灾，也很难有人实地拍摄（会被骂为何不帮忙救火，而站在一旁拍照）；站在平地拍摄，和无人机在空中拍摄的视角又有不同，造成数据分布不同；我们不可能真的为了寻找火情数据集，真的把一栋房子点燃。以上这些原因，造成图像的数据获取的极为困难。

2、任务复杂度过高

传统的常见的图像任务，一个是分类，一个是检测。这两者是在实际当中应用最多的任务，一个YOLO系列模型，不知养活了多少公司。

一般认为，图像任务多停留在感知，而 NLP 则聚焦于认知。针对火灾识别，一般标注逻辑是：见到火焰，则认为模型存在火灾。那么，下图存在火灾吗？

很明显，图片中压根没看见任何火焰，火焰也无固定形状，想要做检测任务都非常难，这体现了传统图像模型的建模的局限性。

另一方面，这说明了，图像任务和人的逻辑认知、推断是分不开的。还是例子：

如何判断图片中是否存在火灾？非要看到火焰才确定是火灾吗？有烟也可以确定是火灾吗？只有烟就可以确定存在火灾？那么，下图呢？这里到底有没有发生火灾？

3、算力

ChatGPT 证明了一件事，哪有什么人的智能？只要模型大，数据量多，模型就能充分理解人类的语言，那个文字组织能力，翻译能力，绝对强过绝大多数人类。

GPT4 只是更进一步证明了这一点，包括图像和语言。

你想做复杂的任务，理解更深的语义联系，就需要 更大的模型。更强的算力。这几乎是个铁律。

确实有边端智能这个方向，但是它无法完成复杂的AI 智能任务。仅仅能围绕人脸识别、车辆检测、人的检测等等简单任务上开展业务。

目前很多公司里的 CV 项目依然停留在几张卡、几十张卡，分门别类，针对不同任务、不同数据集，训练很多个任务的阶段。这种做法就是定制化，堆叠人力，从而容纳了大量的 CV 从业者，高效开办了各种 CV 实验室。

GPT4 对传统 CV 的冲击

通过图文多模态模型，我相信过去的那种定制化建模的 CV 业态将会彻底改变。

任何任务，都可交给 GPT4 输出结果。从此，有任何理解任务，交给 GPT4 就可以了。我们不用担心针对特定任务的数据量难以获取、数据量少，任务太复杂，等等。

我非常清楚，现在市面上很多的中小型公司，定制化了非常多的模型，对外宣称业界领先（反正很少有人真的去验证），效果仅限于训练和验证数据集，完全不可以拿到工业界去测试，一旦测试露出马脚，就以数据量少，数据分布不均衡，测试方法不对做defence。

实际上，这些情况，大家也都心知肚明。CV 的定制化阶段，更多地像是吹出的漂亮的泡沫，一戳就破。

这个泡泡，被GPT4 戳破了。

对 CV 人员的影响

1、大模型的限制

算法人员有两个非常强的依赖，算力和数据。我相信绝大多数从业人员都明白这个道理。

GPT4 用了多少数据呢？技术报告里是这么讲的，他们的小模型训练所用的算力要比GPT4 小了1000~10000倍。

那 GPT4 的算力是多少呢？(●^◡^●)这个体量的模型有多少公司玩得起？评论区有人讲

我看了都想笑，怎么会这么拎不清？不是你算法牛逼，论文牛逼，产出的产品就牛逼。

2、新工业革命

CV 算法工程师，在未来，一定是需求锐减的。这就是一次工业革命，是机器替代人的脑力的工业革命。

这次的工业革命，称其为 第四次工业革命，毫不为过。它和 蒸汽机替代纺织女工毫无区别。中小公司的算法工程师们，高校里的科研教授、副教授、研究生们，都是那群即将被替代的纺织女工。

这就是旧泡沫的破裂，新模式的诞生。人工智能行业，人人都可以了解，人人都可以使用。但只有极少数人可以参与其中。这就是一个高度垄断的行业。

是只有微软、google、Openai、国内百度等垄断巨头能参与的领域。

前段时间，中国成立了国家数据局，很明显，人工智能比拼的就不是算法和论文。GPT4 的所谓论文，标题就非常直接，自称为技术报告，就不称之为论文：

这就是在明确告诉全世界，人工智能不是谁发个论文就算是参与了，领先了。人工智能就是数据和算力的比拼。

未来发展方向

1、CV 和 NLP 的未来

不论是中国人、美国人、法国人、日本人、埃及人，见到苹果，虽然叫法不同，但是大家都能认出，那是一个苹果，可以吃。见到火灾，大家都会惊呼救火。见到杀人场景，都会发出愤怒和悲叹。

换句话说，全世界所有人，共享了一套世界观。

而人工智能所作的工作，就是在替人类理解这个世界。既然世界观一致，那么，一个 GPT4 模型，就足够全世界的人使用了。

所以，CV 领域的继续研究、NLP 的研究，很难再找到别的路径了。就算找到了，想实践，那也得能进入巨头企业才行。

2、机器人

第一次、第二次、第三次工业革命，其实都在替代人的体力，第四次工业革命，也就是人工智能，替代了人的脑力。它并非100%替代一个人，但它能替代程序员的20%、替代客服的50%、替代材料编写员的80%，就已经意味着社会的变革。

网上有图，程序员失业了该怎么办：

大家有没有想过，为什么营业员、保洁、快递员这些岗位没有被替代？

因为这就是几次工业革命没能成功的地方。也就是，机器人接到通用多模态 AI 上面。

AI+机器人+某个细分应用场景，可能是小团队或公司可以做的，AI只是提升某个具体场景应用中的机器人专业智能，而不是通用智能，竞争没那么激烈，又可以借AI和机器人的风口，就像之前的 互联网+的套路

机器人完成的功能多种多样，各有不同，定制化就意味着手工业化，意味着容纳大量的工作岗位。

看明白了吗，各位？我的另一篇文章有评论如下，自从ChatGPT 出来后：

同样的话，送给各位 CVer 们。可以关注我的公众号 JioNLP。