大模型前沿动态：BiomedGPT、ArtGPT-4、Chain of Thought、INLP

AITIME论道

于 2023-08-11 18:30:51 发布

阅读量559

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247516843&idx=1&sn=34b8b23fc4f4fc4ab9fb7608fb02e3dd&chksm=e932b00dde45391bc2f865045d0f37a72d564bda0091cace7301078d47de2afcf9ebdd9ae0e6&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在当今科技迅猛发展的时代，人工智能技术已经深刻改变了我们的生活和工作方式。而作为人工智能的核心，大模型技术成为引领创新和驱动进步的重要支撑。2023年7月13日，AI TIME举办的大模型专场九活动邀请了理海大学二年级博士生章恺、安徽工程大学人工智能学院三年级本科生袁政卿、北京大学信息科学技术学院三年级本科生冯古豪、北京航空航天大学一年级硕士生王泽坤，四位嘉宾分别介绍了其在大模型领域的最新成果和实践经验，交流了自己对于未来大模型发展的看法，探索大模型的未来方向。

章恺

多模态医疗数据和通用人工智能

章恺博士首先为观众铺垫了医疗健康领域现有的多模态数据，这些数据的来源主要有biobanks、医院中的电子病历以及医疗影像设备所产生的图像等，然后阐述了大模型在医疗诊断或健康护理中的优势，它能够缓解全球医生护士的短缺，加快诊断流程，并作为辅助工具帮助医生学习新知识。进一步分析了医疗领域需要通用大模型的原因：对多个疾病的建模或训练需要耗费大量成本且已有的模型忽略了疾病与病征的相关性。最后，他介绍了自己的最新工作并展示了相关性能的实验结果，BiomedGPT是目前在医疗领域中的唯一一个通用大模型，它能够处理多种状态的任务如图片分类、目标检测等。

袁政卿

ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4

近两年，大型语言模型（LLM）在自然语言处理（NLP）方面取得了重大进展，ChatGPT和GPT-4等模型在各种语言任务中都取得了令人印象深刻的能力。袁政卿首先介绍了该篇工作的研究动机：开源强如GPT-4的多模态视觉语言大模型。随后他介绍了MiniGPT-4的主要架构，它通过利用新颖的预训练模型和创新的训练策略，实现了与GPT-4相当的视觉语言理解。然而，该模型在图像理解尤其是艺术图片方面仍存在挑战。他进一步分享了ArtGPT-4的改进工作：ArtGPT-4可以描绘具有艺术风格的图像并生成视觉代码、前端网页等，仅使用Tesla A100设备在短短2小时内就可以完成图像-文本对的训练，使用的训练数据集仅200GB。最后，他也通过广泛的实验证明了ArtGPT-4的优越性能。

冯古豪

揭示思维链之谜：一个理论视角

如今，大语言模型在各个方面都取得了强大的表现能力，比如问答、数学、代码生成、决策推理等，已经非常接近于通用的人工智能。冯古豪首先介绍了该研究的背景，强调了在数学和推理方面，CoT Prompt对于提高大模型的表达能力起到关键作用。从理论上理解CoT的生成能力需要聚焦两个方面：大语言模型在没有CoT的情况下存在的内在限制、添加CoT后的大模型取得成功的本质原因。随后介绍了有关该研究的预备知识：Autoregressive Transformers，各种任务可以统一被视为序列生成问题。然后，他分别阐述了思维链是解决大语言模型数学问题和生成问题的关键的原因。最后，通过实验结果直观地展示了加上CoT后的大模型表现能力有很大提升。

王泽坤

交互式自然语言处理：大模型作为智能体

ChatGPT的横空出世解决了自然语言研究领域的诸多难题，也带来了诸多挑战。王泽坤首先介绍了该研究的背景和动机，为了解决现有框架的局限性，同时又能够与人工智能的最终目标保持一致，交互式自然语言处理成为NLP领域的一种新范式。随后，他介绍了其工作中的主要框架，包括交互对象、交互媒介、交互方法、评测、应用、伦理安全与未来发展。交互对象被分为四种：人、知识库、模型与工具、环境，在这种交互过程中将语言模型当作agent，它以一种迭代的形式与外界进行交互。交互媒介被分为五类：自然语言、形式语言、机器语言、编辑语言与共享记忆。从prompting的角度交互方法可以被分为标准提示、选择性提示、提示链；从Fine-Tuning的角度交互方法可以被分为Supervised Instruction Tuning、Continual Learning、Parameter-Efficient Fine-Tuning、Semi-Supervised Fine-Tuning。他表示，该项工作为对INLP领域感兴趣的研究人员提供了一个切入点，并提供了对INLP当前景观和未来发展的广泛看法。

Panel

CV什么时候能迎来ChatGPT时刻？

章恺：大语言模型性能的提升得益于参数量和数据量的扩大，但是目前在视觉模型中一些扩大模型规模的尝试并不能使其达到很可观的效果。视觉图像的数据密度低，将一张图像切换成patch会有信息损失，并且有些纯黑或纯白的patch中不包含语义信息，做有语义的patch形式走向更好的模态是值得探索的。另外，要实现任务上的统一，还是需要回归到自监督学习，未来需要解决的问题有很多，比如建模各种物体的外形、颜色及材质，补全被遮挡图片的语义信息，建模三维场景等。

王泽坤：有理论研究证明，比较压缩的信息表征带来的泛化性能会更好，即存在表达性和泛化性的“trade off”，当数据表示feature的维度更高，表达性越高，泛化性越低，反之亦然。我们对ChatGPT最看重的能力本质上讲是泛化性，CV的参数量扩大到22亿依然效果不显著的原因在于视觉信号相对于文本而言维度太高，有效信息是很稀疏的，所以CV如果要像ChatGPT一样达到很好的效果，应该着力于如何处理图像信号的压缩。

Panel

我们何时能够克服大模型的多重挑战直至将其用于生活的方方面面？

袁政卿：人类目前需要克服大模型的种种挑战，从而将其应用于生活的方方面面，比如大模型的输出是否真实有依据、大模型的阶段性知识储备会出现断层现象以及社会伦理的问题等。

冯古豪：提示工程是一个比较好的切入点。现在大模型已经达到一定规模，训练语料也已经足够多，所以即使扩大训练数据集对大模型提高能力的增益也不是很大。但是在实际过程中，我们可以在模型推理时提供一些tricks进行提示或者让其使用联网工具得到更好的表现，我觉得这是让大模型应用于实际生活比较值得探索的一个方向。

Panel

提示工程能为大语言模型带来怎样的优势和增益？

章恺：提示工程能够给大模型带来更高的灵活性，它通过一步步引导大模型，不停地挖掘其内部的知识，使其达到人类想要的效果。

王泽坤：提示工程能够利用不同的prompt激发语言模型中的知识体系，对其中的知识进行重新编排和整理。提示工程有两种形式的提示，第一种是instruction给出任务的指令，第二种是few shot example。如果我们用instruction将prompt融入上下文训练语言模型，多样化的instruction可以给大模型带来很好的泛化性能的提升，这是提示工程在训练过程中给大模型带来的最大收益之一。另外，商业开发的闭源大模型本质上不允许我们进行修改，此时只能通过提示工程搭建产品技术。

冯古豪：关于提示工程，有两个比较重点的方向。首先是如何从理论上理解提示工程的触发，如果能解决这个问题，一方面可以根据数据集设计更好的提示工程；其次，如果能够知道真正有效的提示工程结构，就可以过滤和筛选更好的数据集，从而提升大语言模型的训练效果。

袁政卿：GPT3与GPT-4的区别在于后者增加了一些结构使模型能够更好地与人类进行交互，而以思维链为例，它能够让大模型更好地进行逐步推理，这就是提示工程给大模型带来的增益。

Panel

大模型长文本处理的终极方法会是什么？

王泽坤：大模型长文本处理的方向有两个：理解和生成。目前长文本理解的主要方式有三种：第一种是Spatial attention，第二种是添加外置的memory，第三种是利用滑动窗口的方法。我认为滑动窗口的方法相对于减速增强更有效，复杂性更低，也更符合认人脑的学习方式。

章恺：大模型处理长文本核心的要点在于额外设计的attention机制。在文本越来越长的情况下，选择分块计算，但这样计算量会很庞大。我们提出的reversible transformer方案通过反向传播，在长文本的情况下attention会占用很多memory，这可以利用memory缓解计算量的问题。

袁政卿：添加memory确实是好的方法，但是它能存储的长本文是有限的。可以先收集长文本中有用的信息，再利用高级的数据结构进行训练，使整个过程更加稳定。

冯古豪：目前也有研究中在处理长文本的过程使用了一些tricks，比如利用分块等各种形式使attention关注到更重点的信息。长文本的处理相较于我们现在使用的各种大模型结构，需要进行各种深刻的改进才能够完成这样的任务。

整理：陈研

审核：章恺、袁政卿、冯古豪、王泽坤

往期精彩文章推荐