从压缩存储、图像识别、音频建模角度探索 MiniLLM、RAM、MERT大模型的潜力|干货...

AITIME论道

于 2023-10-05 10:30:59 发布

阅读量910

点赞数

文章标签：音视频

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247518435&idx=1&sn=331ab8efd5a1c1c4fdfe5939c87bf75b&chksm=e932ba45de45335317fd641e8657481ac4ee6c7315e7aeaff004574e2464583c06a07554ff86&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在这个数字时代，大语言模型不仅在自然语言处理、计算机视觉等领域表现出色，还成为改变我们日常生活和商业实践的重要引擎。它们不仅便利了我们的生活，也拓宽了人工智能的边界，展示出了巨大的潜力和应用前景。2023年8月15日，AI TIME举办的第10期大模型系列活动邀请了清华大学计算机系交互式智能（CoAI）研究组二年级直博生顾煜贤、复旦大学计算机学院跨媒体智能计算实验室（CMIT）三年级直博生黄新宇、曼彻斯特大学计算机系二年级博士生李一之，三位嘉宾分别从MiniLLM、RAM、MERT分享了他们的最新研究成果，交流了科研实践过程中遇到的问题难点，并共同探讨了大模型未来的研究方向和应用。

MiniLLM: Knowledge Distillation of Large Language Models

顾煜贤：

知识蒸馏(KD)是一种很有前景的技术，可减少大型语言模型(LLM)的高计算需求。然而，之前的KD方法主要应用于白盒分类模型或训练小模型来模仿ChatGPT等黑盒模型API。如何高效从白盒生成LLM蒸馏仍待研究且愈发重要。在报告中，顾煜贤介绍了一种全新的模型MiniLLM，它可以从生成的较大语言模型中提取较小的语言模型。在MiniLLM中，首先通过使用更适合生成语言模型上的KD的反向KLD，替换标准KD方法中的前向Kullback-Leibler散度（KLD）目标，以防止学生模型高估教师分布的低概率区域，然后利用了一种有效的优化方法来学习这个目标。在指令跟踪设置中的大量实验表明，MiniLLM模型可以生成更精确的响应，具有更高的整体质量、更低的曝光偏差、更好的校准和更高的长文本生成性能。

万物识别RAM：最强图像识别模型

黄新宇：

黄新宇在报告中介绍了一种万物识别模型-RAM，用于图像打标签。RAM引入了一种新的图像标记范式，利用大规模图像文本对进行训练，而不是手动注释。RAM的开发包括四个关键步骤：首先，通过自动文本语义解析大规模获得无注释的图像标签；随后，通过统一标题和标记任务来训练初步模型以进行自动注释，分别由原始文本和解析的标签进行监督；第三，采用数据引擎来生成附加注释并清除不正确的注释；最后，使用处理后的数据重新训练模型，并使用更小但更高质量的数据集进行微调。RAM为计算机视觉中的大型模型迈出了实质性的一步，展示了高精度识别任何常见类别的零样本能力。

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

李一之：

在语音和一般音频场景下，自监督学习(SSL)已经显示出了强大的表征能力，但通过SSL方法表征音乐音频仍然具有挑战。李一之在报告中分享了一种基于自监督学习的音乐音频理解模型MERT。该模型使用教师模型在掩码语言建模的自监督预训练中提供伪标签，将音频特征进行预训练。研究中采用了基于RVQ-VAE的声学教师和基于CQT的音乐教师，指导BERT风格的Transformer编码器进行音乐音频建模，并引入批内噪声混合增强以提高表示的鲁棒性。MERT模型在14个音乐理解任务上表现出色，取得了最先进的综合得分，具有较好的音乐音频建模性能。

Panel

传统语言生成面临的问题在大模型时代是否已经得到解决？

顾煜贤：GPT4的生成效果虽然更好，但是将温度设置成非常小的时候，仍然会有重复性的问题，在开源的模型上这类问题更加显著。可以通过采样的方法避免这类问题，但是对于这内部的机理，我们的理解目前是没有很到位的。大模型时代，一些小的改进和尝试在大规模、大数据量的影响下并不会有显著的效果，所以需要从更底层、更基础的角度去理解传统语言生成模型带来的问题。

李一之：传统语言生成模型的问题在当下是没有被解决的。即便目前有很多完善的Benchmark，但是研究的过程实际上是做Benchmark与做算法模型研究员动态竞争的过程。随着新模型的出现，他们会在传统任务中表现出优势，但在价值观对齐等很多方面还有提升空间。最近的大模型中涌现出很多新的Benchmark，涵盖了全面的知识，但是无法遵循指令执行人类指定的能力。

黄新宇：要想解决这些问题，较直观的方式是首先需要有数目庞大且高质量的数据，从而提高模型的泛化性能；其次是构建多模态的大模型，先提高CV方面的技术，赋予大语言图像识别的能力，再研究大模型推理方面的能力。

如何自动地从多方面评测生成大模型的性能？

顾煜贤：使用大模型评测大模型可能是未来较好的一个努力方向。比如可以定义一些包括语言生成的质量、多样性、一致性、可读性等的性能指标，或构建专门的评估数据集，重复地让大模型进行自我评估，以综合评估大模型的性能。

李一之：首先，让大模型进行自我评估是可行的，但是这也导致了一个现象，即大模型对于利用自己生成的数据训练时，最终的输出结果分数会更好，而对于其他大模型的评测分数会相对较低，即它会更认可自己本身的逻辑和价值观；其次，在做自我评估时，不必要使用同一个大模型，可以额外设计一个专门负责AI对齐的大模型去进行评测。

黄新宇：让大模型进行自我评估类似于“打伪标签”的形式，但是这会让大模型朝着自己偏向的那一侧评估，即“好的更好，坏的更坏”。目前多模态的大模型如图像端还没有输入的API，这使得对大模型的评测很有难度。评测文本质量可以通过让其做题，但是想要让大模型根据图像来生成优秀质量的文本还是有一定困难的。

为什么将temperature设置成0之后，gpt3.5/4的输出仍然有随机性？

顾煜贤：在混合专家模型中选“专家”有一定的随机性，而对于扩大算子的随机性我不是很赞同。一般来说，随机性体现在从一台机器换到另一台机器，或者从一种框架转变到另一种框架的时候。

李一之：从专家模型的多样性来看，MoE架构通常包括多个专家模型，每个专家模型在不同的子任务或情境下进行训练。即使temperature设置为0，模型仍然需要从这些不同的专家模型中选择一个来生成输出。这个选择可能会受到微小的差异或随机性的影响，尤其是当多个专家模型都有相似性能的情况下。

黄新宇：输入到MoE模型的数据可能包含噪声或微小的差异。即使temperature为0，模型可能会对输入数据的微小变化做出不同的响应，导致略微不同的输出。同时由于MoE架构中存在多个专家模型和其他因素的影响，仍然可能有一些微小的随机性。要完全消除随机性，可能需要采取额外的措施，例如使用确定性的解码策略或更加严格的模型控制。

整理：陈研

审核：刘乾、朱婧、罗林浩、王珩、毛海涛

往期精彩文章推荐