2022预训练的下一步是什么

最新推荐文章于 2022-08-13 14:40:09 发布

JMXGODLZ

最新推荐文章于 2022-08-13 14:40:09 发布

阅读量406

点赞数

分类专栏：年度总结文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/qq_40676033/article/details/122290498

版权

年度总结专栏收录该内容

1 篇文章 0 订阅

订阅专栏

该内容为自己对2021年自身算法经历的回顾，同时展望了未来研究的方向。如有理解不对的地方，欢迎指正批评。

欢迎大家访问个人博客：https://jmxgodlz.xyz

文章目录

2021年研究热点
展望未来
回顾自身算法经历
参考文献

2021年研究热点

大规模预训练

预训练+微调的做法，在多个下游领域取得优异的表现。而在过去的一年里，预训练模型更是在往大而深的方向发展。

目前，国内已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。

但是模型在往大而深方向发展的同时，也存在如下亟待解决的问题：

如何解释预训练模型的理论基础（如大模型智能的参数规模极限存在吗）
如何将大模型高效、低成本的应用于实际系统
如何克服构建大模型的数据质量、训练效率、算力消耗、模型交付等诸多障碍
如何解决目前大部分大模型普遍缺乏认知能力的问题

对比学习

对比学习的出发点在于避免模型坍塌，理想的模型应该符合alignment和uniformity，即语义相近的句子彼此聚集，语义无关的句子均匀分布。

如果仅仅通过数据增强构建正例，随机句子作为负例，并为其打上0，1标签，存在以下问题：

数据增强生成正例的变化有限
随机搭配成负例，含有除正例组合外其他组合全部为0的诱导
0，1标签的赋予太过绝对，对相似性表述不够准确

因此对比学习的核心思想转变为：

score(X,X^{'}) >> score(X,Y)

其中，X代表原样本， $X^{'}$ 代表数据增强的正样本，Y代表随机选择的负样本。

根据该思想，对比学习采用InfoNCE损失函数：

loss = -log \frac{exp(score(X,X^{'}))}{score(X,X^{'})+\sum_{i=1}^{N}score(X,Y_i)}

通过该损失函数实现正例拉近，负例推远的效果。

prompt

prompt被誉为NLP领域的新范式，与预训练+微调的范式相比，其过程分为：“pre-train, prompt, and predict”。

prompt的出发点在于以更轻量化的方式利用预训练模型，避免微调与预训练之间存在的差异。

prompt通过构建模版的方式，将下游任务转为与预训练相似的MLM任务，以该方式充分发挥预训练模型的性能。

以文本情感分类任务中，"I love this movie."句子为例，prompt按照以下方式进行处理：

生成prompt句子

该步骤完成输入句子到模型输入的映射：

x^{'}=f_{prompt}(x)

其中， $x^{'}$ 为生成的prompt句子，x为输入句子， $f_{prompt}$ 为prompt函数。

在本例中，使用的模版为： " [X] Overall, it was a [Z] movie."

因此，得到的， $x^{'}$ 为"I love this movie. Overall it was a [Z] movie."

模型预测

该步骤将 $x^{'}$ 输入模型，模型完成模版空白位置的词语预测。

在本例中，模型可能预测为：“excellent”, “great”, “wonderful” 等词语

结果映射

通常模型预测的词语与任务输出存在一定差距，因此我们需要完成词语到输出结果的映射。

y = f(x^{'})

在本例中，“excellent”, “great”, “wonderful” 等词语映射为标签 “++”

展望未来

首先我认为当前基于数据驱动方法存在如下的问题：

长尾效应：自然界中的数据分布就是长尾的，在学习的过程中，模型容易发生过拟合，泛化性较差。
数据噪声：有标签的数据，在标注过程中就不可避免的存在噪声。尤其是多位人员一起标注时，不同标注人员根据自身的理解完成数据的标注，但不同的人自身理解存在偏差，因此标注结果极易存在误差。归根到底：标注的规范难以确定，无法统一大家的知识库。

当前我遇到的一些问题分享：模型仍无法很好地处理下述问题：

太阳有几只眼睛？

姚明与奥尼尔身高谁比较高？

猫咪可以吃生蛋黄吗？猫咪是可以吃蛋黄的。这里特定煮熟的白水蛋，猫咪不能吃生鸡蛋，因为生鸡蛋中有细菌。

物质都是由分子构成的吗？物质都是由分子构成的，分子又由原子构成-错的！因为有些物质是不含分子的。

这些问题，我总结为两方面的困难：

缺乏知识，由于预训练与微调领域存在偏差，模型在下游任务中缺乏特定知识，同时模型在一些常识问题上表现较差。
缺乏深度语义的理解，模型表现的更像通过字面匹配完成任务，推理的成分更弱。

当前研究热点仍然在于挖掘预训练模型的能力，但在基于常识性知识与逻辑推理的问题上，这种基于数据驱动的方式从底层就存在问题。引用一下大咖们对2022年的展望。

大模型一方面在不少问题上取得了以往难以预期的成功，另一方面其巨大的训练能耗和碳排放是不能忽视的问题。个人以为，大模型未来会在一些事关国计民生的重大任务上发挥作用，而在其他一些场景下或许会通过类似集成学习的手段来利用小模型，尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。

我们提出了一个叫做 “学件” 的思路，目前在做一些这方面的探索。大致思想是，假设很多人已经做了模型并且乐意放到某个市场去共享，市场通过建立规约来组织和管理学件，以后的人再做新应用时，就可以不用从头收集数据训练模型，可以先利用规约去市场里找找看是否有比较接近需求的模型，然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决，我们正在研究这个方向。

另一方面，有可能通过利用人类的常识和专业领域知识，使模型得以精简，这就要结合逻辑推理和机器学习。逻辑推理比较善于利用人类知识，机器学习比较善于利用数据事实，如何对两者进行有机结合一直是人工智能中的重大挑战问题。麻烦的是逻辑推理是严密的基于数理逻辑的 “从一般到特殊”的演绎过程，机器学习是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程，在方法论上就非常不一样。已经有的探索大体上是以其中某一方为倚重，引入另一方的某些成分，我们最近在探索双方相对均衡互促利用的方式。

谈谈自己的理解，预训练模型的方式归根到底仍然属于数据驱动的任务，其通过在大规模数据上学习，推断未知数据的概率。如果说数据中存在表述不准确、表述有歧义或者词汇本身就有多个含义的话，以概率的方式难以解决这些问题。而人脑在未知问题上，推理成分居多，以一词多义为例，人类会考虑该词汇有几种用法，考虑在这种上下文语境下使用哪一种用法，所以是否可以建立一套类似于标准公理的语言规范，以该规范为基础，对未知句子进行拆解推理，理解句子的完整含义。通过了解模型的推理过程，模型的可解释性增强。当预测错误时，我们可以进行溯源分析，对模型依赖的知识进行调整，或者让模型学习的更充分。

接下来对自己2022年的期望：