大模型论文周报｜来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等机构前沿论文研究...

AITIME论道

于 2023-01-10 18:27:35 发布

阅读量919

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247510126&idx=1&sn=fdd71c7422ed5e3fd676d275c55b8b18&chksm=e9329ac8de4513ded48c7daef21a1319fa9169edbf24e481fad13231d1d63a9dcdbadd2e5691&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

大模型又可以称为Foundation Model模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代，其所带来的结果提升十分显著，超越了很多领域中针对研究问题设计特定算法实现的提升。

本周精选了10篇大模型领域的优秀论文，分别来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等机构。

为了方便大家阅读，只列出了论文标题、作者、链接等信息，如果感兴趣可扫码查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1.Muse: Text-To-Image Generation via Masked Generative Transformers论文详情页

作者：Huiwen Chang,Han Zhang,Jarred Barber,AJ Maschinot,Jose Lezama,Lu Jiang,Ming-Hsuan Yang,Kevin Murphy,William T. Freeman,Michael Rubinstein,Yuanzhen Li,Dilip Krishnan

AI华同学综述（大模型驱动）：我们提出了Mute,一种文本到图形转换模型,它实现了最先进的图像生成性能,同时优于同步或反向激励模型。该模型在隐藏标记空间中进行训练,给定从一个预先训练好的大型语言模型(LLM)中提取的文本嵌入,并对其进行预测。与像素空间传播模型一样,Mute使用有限状态传感器,并且需要少量的迭代更新。使用过相交解码来实现高精度图像生成和视觉概念理解。

2.Cramming: Training a Language Model on a Single GPU in One Day论文详情页

作者：Jonas Geiping,Tom Goldstein

AI华同学综述（大模型驱动）：我们研究了一种基于转换的语言模型如何在仅一天内训练成可扩展语法。除了重新分析该场景的预处理步骤的所有部分之外,我们还调查了为什么缩放固执是困难的,以及哪些改进在这种情况下提高了性能。我们提供了一个与BLEU接近的改进的基线,并讨论了这些改进对有限计算环境下的适用性(或缺失)。

3.GraphCast: Learning skillful medium-range global weather forecasting论文详情页

作者：Remi Lam,Alvaro Sanchez-Gonzalez,Matthew Willson,Peter Wirnsberger,Meire Fortunato,Alexander Pritzel...Peter Battaglia

AI华同学综述（大模型驱动）：图像建模是一个基于图的神经网络和一种新的高度解析的多边形矩阵表示。它可以在6小时内生成10天的天气预报,每个变体在37个垂直压力水平下,每变体在25x25公里大小的地图上。我们的结果表明,图像建模比最准确的先前基于机器学习的基线预测模型更精确。

4.Petals: Collaborative Inference and Fine-tuning of Large Models of Code论文详情页

作者：Alexander Borzunov,Dmitry Baranchuk,Tim Dettmers,Max Ryabinin,Younes Belkada,Artem Chumachenko,Pavel Samygin,Colin Raffel

AI华同学综述（大模型驱动）：许多NLP任务利用大型语言模型(LLM)进行推理。这些模型通常具有100亿个参数,但缺乏精确的推理算法。在本文中,我们提出了一种联合推理的系统,该系统通过将多个可处理数据之间的资源相结合来实现。我们证明了这种策略明显优于非常大的推理器,在消费者高分辨率显微镜上运行基于一秒钟的推理。

5.Repository-Level Prompt Generation for Large Language Models of Code论文详情页

作者：Disha Shrivastava,Hugo Larochelle,Daniel Tarlow

AI华同学综述（大模型驱动）：我们提出了一种称为 Repo级提示生成框架,该框架学习使用一组规则生成示例提示。这些规则将来自整个资源库的上下文结合起来,并将来自其他相关文件的结构和上下文融合起来。我们的技术不需要对大型语言模型(如GitHub的Copilot)的 Weights进行任何访问,因此它适合于仅有黑盒访问的LLM。

6.Large Language Models as Corporate Lobbyists论文详情页

作者：John J. Nay

AI华同学综述（大模型驱动）：我们证明了大型语言模型进行国会议员相关活动的真伪概念。一个有监督的大型语言模型(开放式文本戴维奇003)确定是否提议的美国国会法案对特定公共公司具有重要意义,并提供解释和信心水平。对于该法案,该模型写信给赞助人,试图迫使议长改变拟议的法案。我们使用数百个衡量一项法案与某一公司的关联性的地面事实标签来衡量该模型的性能,该模型优于预测最常见的不关联结果基线。

7.Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation论文详情页

作者：Jay Zhangjie Wu,Yixiao Ge,Xintao Wang,Weixian Lei,Yuchao Gu,Wynne Hsu,Ying Shan,Xiaohu Qie,Mike Zheng Shou

AI华同学综述（大模型驱动）：为了复制文本到图(T2V)生成的成功,最近的Text-to-Video生成作品使用大规模文本视频数据集进行调整。然而,这种取向是计算昂贵且耗时长。人类有惊人的学习能力,从单个例子中学习新视图概念。我们在这里研究了一种新的T2V生成问题,即一个射击视频生成,其中只提供了一个开放领域T2V生成器来训练一个开放域的T2V生成器。对数线性地,我们提出了将预处理的T2I传播模型扩展到巨型图像数据上以提高内容一致性。

8.Large Language Models Encode Clinical Knowledge论文详情页

作者：Karan Singhal,Shekoofeh Azizi,Tao Tu,S. Sara Mahdavi,Jason Wei,Hyung Won Chung,Nathan Scales,Ajay Tanwani,Heather Cole-Lewis,Stephen Pfohl…Vivek Natarajan

AI华同学综述（大模型驱动）：大型语言模型在自然语言理解和生成方面取得了令人印象深刻的性能。然而,医学应用程序的质量标准非常高。为了解决这个问题,我们提出了一种人类评估框架,包括事实性、精度、可能造成的伤害和偏倚。此外,我们还评估了PaLM(一个540亿个参数LLM),并将其指导变体改进了。

9. Rethinking with Retrieval: Faithful Large Language Model Inference论文详情页

作者：Hangfeng He,Hongming Zhang,Dan Roth

AI华同学综述（大模型驱动）：我们提出了一种新的后处理方法,重新思考(RR),该方法基于从决策链中归纳出的共指消解步骤。这种轻型方法不需要额外训练或调整,并且不局限于语言模型的输入长度。我们评估了用于解释的大规模推理任务(GPT-3)的有效性。

10.Reasoning with Language Model Prompting: A Survey 论文详情页

作者：Shuofei Qiao,Yixin Ou,Ningyu Zhang,Xiang Chen,Yunzhi Yao,Shumin Deng,Chuanqi Tan,Fei Huang,Huajun Chen

AI华同学综述（大模型驱动）：语言模型启发式研究的最新进展本文提供了一个全面的调查关于因果关系的研究。我们将研究发现与比较和摘要结合起来,并提供系统资源来帮助初学者。我们还讨论了这些能力出现的潜在原因,并指出未来研究的方向。

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了900多位海内外讲者，举办了逾400场活动，超400万人次观看。

我知道你

在看

哦

点击 阅读原文 解锁更多精彩！

AITIME论道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型论文周报｜来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等机构前沿论文研究...

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！大模型又可以称为Foundation Model模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代，其所带来的结果提升十分显著，超越了很多领域中针对研究问题设计特定算法实现的提升。本周精选了10篇大模型领域的优秀论文，分别来自谷歌、DeepMind、斯坦福、新加坡国立大学、腾讯等...
复制链接

扫一扫