【麻省理工发布：2024 年 AI 的下一步是什么】-CSDN博客

本文链接：https://blog.csdn.net/weixin_36808034/article/details/136185366

本文预测了2024年人工智能领域的四大发展趋势：定制聊天机器人的商业压力、生成式AI在视频创作的应用、AI生成的选举虚假信息问题，以及多任务机器人技术的突破。作者引用了《麻省理工科技评论》的专家对未来技术的见解，强调了数据驱动和模型可靠性的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
曾梦想执剑走天涯，我是程序猿【AK】

简述概要

由Melissa Heikkilä 和 Will Douglas Heaven于1月4日发布的关于”2024年AI的下一步是什么“一文中，对AI的最新情况的预测。

Melissa Heikkilä 是《麻省理工科技评论》的资深记者，负责报道人工智能及其如何改变我们的社会。此前，她在POLITICO撰写了有关人工智能政策和政治的文章。她还曾在《经济学人》工作，并曾经是一名新闻主播。2020 年，《福布斯》将她评为欧洲媒体 30 位 30 岁以下精英之一。

Will Douglas Heaven是《麻省理工科技评论》人工智能的高级编辑，负责报道新研究、新兴趋势及其背后的人。在此之前，是英国广播公司（BBC）技术与地缘政治网站Future Now的创始编辑，也是《新科学家》杂志的首席技术编辑。拥有伦敦帝国理工学院的计算机科学博士学位，知道与机器人一起工作是什么感觉。
在这里插入图片描述

预测内容

1. 定制聊天机器人
你得到一个聊天机器人！你会得到一个聊天机器人！到2024年，在生成式人工智能上投入巨资的科技公司将面临压力，以证明他们可以从产品中赚钱。为此，人工智能巨头谷歌和OpenAI正在大举押注小规模：两家公司都在开发用户友好的平台，允许人们定制强大的语言模型，并制作自己的迷你聊天机器人来满足他们的特定需求，而无需编码技能。两家公司都推出了基于网络的工具，允许任何人成为生成式人工智能应用程序开发人员。

到 2024 年，生成式 AI 实际上可能会对普通的非技术人员有用，我们将看到更多的人修补一百万个小 AI 模型。GPT-4 和 Gemini 等最先进的 AI 模型是多模态的，这意味着它们不仅可以处理文本，还可以处理图像甚至视频。这项新功能可以解锁一大堆新应用程序。例如，房地产经纪人可以从以前的房源上传文本，微调一个强大的模型，只需点击一个按钮即可生成类似的文本，上传新房源的视频和照片，只需让定制的人工智能生成房产的描述。

但是，当然，该计划的成功取决于这些模型是否可靠。语言模型经常是虚构的，而生成模型则充满了偏见。它们也很容易被黑客入侵，特别是如果允许它们浏览网页。科技公司还没有解决这些问题中的任何一个。当新奇感消失时，他们将不得不为客户提供处理这些问题的方法。

——梅丽莎·海基尔

2. 生成式人工智能的第二波浪潮将是视频

令人惊讶的是，梦幻变得熟悉的速度有多快。 2022 年，第一批生成逼真图像的生成模型成为主流，并很快变得司空见惯。OpenAI 的 DALL-E、Stability AI 的 Stable Diffusion 和 Adobe 的 Firefly 等工具在互联网上充斥着令人瞠目结舌的图片，从巴黎世家的教皇到获奖艺术，应有尽有。但这并不全是好玩的：每挥舞绒球的哈巴狗，都有另一件仿冒的幻想艺术或性别歧视的性别刻板印象。

新的领域是文本到视频。期望它把所有关于文本到图像的好、坏或丑陋的东西都放大。

一年前，我们第一次看到了生成模型在经过训练将多个静止图像拼接成几秒钟长的剪辑时可以做什么。结果是扭曲和生涩的。但技术已经迅速提高。

Runway是一家制作生成视频模型的初创公司（也是Stable Diffusion的共同创建者），每隔几个月就会推出其工具的新版本。它的最新型号称为Gen-2，仍然可以生成只有几秒钟的视频，但质量却令人震惊。最好的剪辑与皮克斯可能推出的剪辑相差不远。

Runway 设立了一年一度的 AI 电影节，展示使用一系列 AI 工具制作的实验性电影。今年的电影节奖金为60,000美元，10部最佳电影将在纽约和洛杉矶放映。

顶级工作室注意到这一点也就不足为奇了。包括派拉蒙（Paramount）和迪士尼（Disney）在内的电影巨头现在正在探索在整个制作流程中使用生成式人工智能。该技术被用于将演员的表演与多种外语配音进行口型同步。它正在重塑特效的可能性。2023 年，《印第安纳琼斯与命运转盘》主演了去衰老的深度伪造者哈里森·福特。这仅仅是个开始。

在大屏幕之外，用于营销或培训目的的深度伪造技术也正在起飞。例如，总部位于英国的 Synthesia 公司制造的工具可以将演员的一次性表演变成源源不断的深度伪造化身，只需按一下按钮即可背诵您给他们的任何剧本。据该公司称，其技术现在被 44% 的财富 100 强公司使用。

能够用这么少的东西做这么多事情，这给演员带来了严重的问题。对工作室使用和滥用人工智能的担忧是去年SAG-AFTRA罢工的核心。但这项技术的真正影响才刚刚显现出来。“电影制作的工艺正在发生根本性的变化，”独立电影制片人、专门从事创意技术咨询公司Bell & Whistle的联合创始人Souki Mehdaoui说。

——威尔·道格拉斯·天堂

3. 人工智能生成的选举虚假信息将无处不在

如果最近的选举有什么可取之处，那么人工智能生成的选举虚假信息和深度伪造将是一个巨大的问题，因为 2024 年将有创纪录的人数参加投票。我们已经看到政客们将这些工具武器化。在阿根廷，两名总统候选人创建了人工智能生成的对手图像和视频来攻击他们。在斯洛伐克，一位自由派亲欧政党领导人威胁要提高啤酒价格，并开玩笑说儿童色情制品，在该国选举期间像野火一样蔓延开来。在美国，唐纳德·特朗普（Donald Trump）为一个使用人工智能生成带有种族主义和性别歧视比喻的模因的团体欢呼。

虽然很难说这些例子对选举结果的影响有多大，但它们的扩散是一个令人担忧的趋势。识别在线真实情况将变得比以往任何时候都更难。在已经激化和两极分化的政治气候中，这可能会产生严重后果。

就在几年前，创建深度伪造还需要先进的技术技能，但生成式人工智能已经使它变得非常容易和容易，而且输出看起来越来越逼真。即使是信誉良好的来源也可能被 AI 生成的内容所愚弄。例如，用户提交的人工智能生成的图像声称描绘了以色列-加沙危机，已经淹没了像Adobe这样的库存图像市场。

来年对于那些与此类内容扩散作斗争的人来说将是关键的一年。跟踪和缓解其内容的技术仍处于开发的早期阶段。水印，例如 Google DeepMind 的 SynthID，仍然大多是自愿的，并非完全万无一失。众所周知，社交媒体平台在消除错误信息方面进展缓慢。准备好进行大规模的实时实验，以破获人工智能生成的假新闻。

——梅丽莎·海基尔

4. 多任务机器人

受到生成式人工智能当前繁荣背后的一些核心技术的启发，机器人专家开始制造更多可以完成更广泛任务的通用机器人。

在过去的几年里，人工智能已经从使用多个小模型（每个模型经过训练来执行不同的任务）转变为单一的、单一的模型，这些模型经过训练可以完成所有这些事情，甚至更多。通过向 OpenAI 的 GPT-3 展示一些额外的示例（称为微调），研究人员可以训练它解决编码问题、编写电影剧本、通过高中生物考试等。多模态模型，如 GPT-4 和 Google DeepMind 的 Gemini，可以解决视觉任务和语言任务。

同样的方法也适用于机器人，因此没有必要训练一个机器人翻转煎饼，另一个机器人打开门：一个放之四海而皆准的模型可以使机器人能够同时处理多项任务。2023 年出现了该领域的几个工作实例。

今年6月，DeepMind发布了Robocat（去年Gato的更新版），它通过反复试验生成自己的数据，以学习如何控制许多不同的机械臂（而不是一个特定的手臂，这是更典型的）。

去年10月，该公司与33个大学实验室合作，推出了另一个名为RT-X的机器人通用模型，以及一个大型的通用训练数据集。其他顶级研究团队，如加州大学伯克利分校的RAIL（机器人人工智能和学习），正在研究类似的技术。

问题是缺乏数据。生成式 AI 利用互联网大小的文本和图像数据集。相比之下，机器人几乎没有良好的数据来源来帮助它们学习如何完成我们希望它们完成的许多工业或家庭任务。

纽约大学的勒雷尔·平托（Lerrel Pinto）领导了一个团队来解决这个问题。他和他的同事们正在开发技术，让机器人通过反复试验来学习，并提出自己的训练数据。在一个更加低调的项目中，平托招募了志愿者，使用安装在垃圾捡拾器上的iPhone摄像头从他们家周围收集视频数据。在过去的几年里，大公司也开始发布用于训练机器人的大型数据集，例如 Meta 的 Ego4D。

这种方法已经在无人驾驶汽车中显示出前景。Wayve、Waabi 和 Ghost 等初创公司正在开创新一波自动驾驶 AI，它使用单个大型模型来控制车辆，而不是多个较小的模型来控制特定的驾驶任务。这让小公司赶上了Cruise和Waymo等巨头。Wayve现在正在伦敦狭窄繁忙的街道上测试其无人驾驶汽车。各地的机器人都将得到类似的提升。

——威尔·道格拉斯·天堂