2021智源大会&AI TIME｜大规模预训练模型离通用人工智能还有多远？

AITIME论道

于 2021-06-02 11:58:16 发布

阅读量979

点赞数 1

文章标签：人工智能算法机器学习大数据编程语言

本文链接：https://blog.csdn.net/AITIME_HY/article/details/117491295

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

6月1日，人工智能领域内行盛会“北京智源大会”如约而至。当天上午，北京市副市长靳伟、科技部战略规划司司长许倞出席并致辞；智源研究院院长、北京大学教授黄铁军；智源研究院学术副院长、清华大学教授唐杰；2018年图灵奖得主Yoshua Bengio（约书亚·本吉奥）；清华大学国家金融研究院院长朱民；中国科学院院士、北京大学教授鄂维南等分别发表演讲。

下午，第25期AI TIME论道在智源大会主会场展开，此次活动特别邀请了中国人民大学高瓴人工智能研究院教授卢志武；阿里巴巴达摩院智能计算实验室资深算法专家杨红霞；360集团副总裁、人工智能研究院及搜索事业部负责人邓亚峰；清华大学长聘副教授黄民烈；美团NLP中心负责人武威；活动由智源研究院成果转化部投资总监李文珏、AI TIME负责人何芸主持，一起论道“大规模预训练模型离通用人工智能还有多远？”

自BERT横空出世以来，预训练模型大放光彩，各种变种层出不穷，研究的方向也多种多样。预训练模型规模近两年来以每年约10倍的速度增长，计算效率成为制约大模型的主要瓶颈。在此背景下，了解预训练模型的方方面面就变得尤其重要（下图来自王晓智、张正彦）。

一个高质量的大规模预训练模型拥有哪些特质？

各大研究机构的大规模预训练模型在技术路线、应用领域等方面有何共性和区别？

一个好的大规模预训练模型首先应该在通用智能上具有一定的能力，能力要既有广度又有深度，这对数据有一定的要求，跟泛化性能有一定的关系，黄民烈首先谈了自己的看法。

目前的大规模预训练模型和理想的模型还有差距，卢志武代表文澜团队提出理想的模型应该具备：（1）通用；（2）有效；（3）可解释；（4）可用可落地。

杨红霞认为高质量的预训练大模型应该有三个特质：（1）Green AI；（2）有认知创新能力；（3）可以商业化落地。

研究高质量应该先定义高质量，武威认为高质量的痛点是可解释性，知道模型什么时候犯错，可以极大地拓宽模型的应用场景。

邓亚峰首先梳理了大规模预训练模型的发展，认为各家的思路、基础组件在趋同，大家找到了一个主方向并向其迈进，进步也非常大。从应用角度看，大家能看到的事情都在推进。

大规模预训练模型在产业中有哪些落地的场景？

是否有激发新产业的可能？

就落地场景而言，未来大规模预训练模型需要在哪些方面探索或提升？

现在讲大规模预训练模型通常是指千亿级的模型，但是产业界的模型通常在几十亿规模上，并已经有很多的应用场景，如搜索、推荐等。邓亚峰介绍了自己的亲身经历，并指出千亿级的模型距离实用还是存在差距，因为产业界要考虑效率和投入产出比，他自己的期望是：（1）打破现有的产品的架构，使架构更简单、更数据驱动；（2）大规模预模型变成AI的基础设施。

杨红霞介绍了为什么要做大规模预训练系统。多模态预训练模型在手机淘宝、支付宝已经开始落地，在产品推荐中特别是冷启动中的效果非常好，并且在时尚设计上已经产生了变革。

借助大规模预训练模型去创业，可以尝试寻找新的方向，重新生长，如虚拟主播就是今年的投资人追捧的热点。卢志武老师分享了自己的建议。

黄民烈谈到大规模预训练模型现在看起来应该可以做很多事，替换一些看起来有门槛但没有那么复杂的事情，如设计LOGO等。现阶段大规模预训练模型进行商业落地要考虑：（1）可控性；（2）模型的小型化、绿色化、经济化。

在模型训练过程中如何确保数据真实有效又保护隐私？

黄民烈首先介绍了UCB在做的一些工作，认为这块的工作还比较少，并举例指出数据会给模型训练带来挑战，因为模型会记录数据，一些攻击方法可以把数据集重新抽取出来，这也是很新的研究方向。

传统认为只要获得一个群体统计意义上的信息而不暴露个体的信息就不会有隐私的问题，在这种情况下，联邦学习可以很好地保护隐私。但是深度模型提出了更大的问题，因为它可能记录并输出预料中的信息，面对于这种情况，邓亚峰认为也许可以在产品设计、运营中采取一些可行的方式。

做好需要很多数据，但要规避其中的隐私，这是一个两难的问题。根据开发文澜系统的经验，卢志武指出可以从模型的角度入手，实现即便数据有噪音也不会影响最终的模型。

Embeding本身已经隐去了一些信息，在未来，杨红霞认为大家可以考虑端云协同，思考Model Over Model的范式。

大规模预训练模型是否是实现通用人工智能的必由之路？还有多远？

大规模预训练模型是实现通用人工智能很重要的一步，因为在模型中可以看到AI已经觉醒。卢志武进一步阐释了当天在主题报告中介绍的模型，并表达了自己的担忧。

黄民烈老师表达了不同的观点。通用人工智能目前还没有准确的定义，从大脑智能的角度来类比，模型要够大，要有一定的基础，但模型不是越大越智能，我们应该关注模型还欠缺什么能力，只有大是不行的。语言的学习要与客观世界的知识和物理世界相匹配，在这个基础上去做大模型可能才是通向通用人工智能的道路。

人的认知系统包括两个部分：（1）映射；（2）逻辑、推理、情感等。邓亚峰认为要做一个接近人的通用人工智能需要非常复杂的系统，今天AI的能力和它的距离还很远，但在由输入到输出这样一个非线性映射问题上，今天的预训练、跨模态模型已经做得非常好，而且呈现出非常多的优点和价值，大家可以从技术和应用的角度去挖掘。

杨红霞回顾了自己团队做这件事的过程，并谈到有没有可能把数据抽象成知识，从大数据时代跨越到大知识时代，他认为大规模预训练模型可以具备推理、创新能力，这是下一代AI应该具备的能力。

武威简单梳理了NLP的研究历史，并指出不同的流派有不同的方法，而大规模预训练模型用一个模型把这些事情都解决了，从这个角度来看，大规模预训练模型已经有了一定的通用人工智能的能力，但如果提高标准，大规模预训练模型离通用人工智能还很远。