易学智能EasyAIForum-CSDN博客

翻译 AIGC大一统模型来了！CV界泰斗黄煦涛创立团队提出「全能Diffusion」

【导读】在各种Diffusion「AI大画家」中学习一番之后，这款全能型Diffusion要完成AIGC界的「大一统」！Diffusion模型的最新进展在许多生成任务中树立了一个令人印象深刻的里程碑。诸如DALL·E 2、Imagen和Stable Diffusion（SD）等引人瞩目的工作，引起了学术界和工业界的极大兴趣。不过，虽然这些模型表现惊艳，但基本都是专一于某一类任务，比如由给定文本生成图像，而对于不同类型的任务，则往往需要专门单独训练，或重新构建新模型。那么能不能在前人基础上搞一个「全能型」的D

2022-12-03 14:14:01 533 1

翻译卷！用扩散模型合成连贯视觉故事，输入字幕就能脑补画面，代词ta都分得清

该研究的效果如何呢？」相比较而言，AR-LDM 生成的图像质量明显更高，人物脸部表情等细节清晰可见，且生成的系列图像更具连贯性，例如 StoryDALL·E 生成的图像，很明显的看到背景都不一样，人物细节也很模糊，其生成只根据上下文文本条件，而没有利用之前生成的图像。生成具有故事性的漫画可不是那么简单，不光要保证图像质量，画面的连贯性也占有非常重要的地位，如果生成的图像前后连贯性较差，故事中的人物像素成渣，给人一种看都不想看的感觉，就像下图展示的，生成的故事图就像加了马赛克，完全看不出图像里有啥。

2022-11-30 14:01:31 236 1

转载 WSDM 2023 | 针对长文档场景下的跨语言摘要

现有的跨语言摘要数据集文档长度相对来说都比较短，比如常用的数据集 Zh2EnSum [1]，它的文档长度平均只有 103.7 个汉字，而相对来说文档长度较长的 En2ZhSum [1]，它的平均文档长度也只有 755.0 个单词左右，远无法称为长文档。对于给定源语言编写的文档，跨语言摘要的目的是用不同的目标语言生成相应的摘要。长文档跨语言摘要中的信息缺失和冗余的问题十分严重，这是由于随着文档的长度以及文档与摘要的压缩率的增加，文档的关键信息在文档中的分布变得稀疏，模型从文章中提取关键信息的难度就越来越高。

2022-11-29 14:29:06 335 2

翻译 CIKM 2022最佳论文：融合图注意力机制与预训练语言模型的常识库补全

Ours 的模型优于 SOTA 基线 MalaviyaModel，不仅验证了本文模型中使用的 RGAT 比 MalaviyaModel 中的 GCN 更有效，而且还证明了我们 BERT 微调中的序列分类任务比 MalaviyaModel 中的掩码任务更好。具体来说，两个节点之间的语义相似性是根据它们从微调的 BERT 中获得的上下文表示来计算的，如果这两个节点的语义相似度大于阈值 τ，我们就在它们之间添加一条辅助边。值得注意的是，在 RGAT 中进行结构表示的学习后，节点可能会失去其初始信息。

2022-11-08 09:13:17 385

翻译再掀强化学习变革！DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

例如，MultiGame Decision Transformer（MGDT）学习了一个可以玩大量Atari游戏的返回条件策略，而Gato通过上下文推断任务，学习了一个在不同环境中解决任务的策略，但这两种方法都不能通过试错来改进其策略。在上下文中，强化学习没有额外开销，然后通过观察 AD 是否能最大化新任务的奖励来评估模型。但目前的方法要么是从不包含学习的数据中学习策略（如通过蒸馏固定的专家策略），要么是从包含学习的数据（如智能体的重放缓冲区）中学习，但由于其context太小，以至于无法捕捉到策略提升。

2022-11-03 17:05:38 376

翻译首个中文Stable Diffusion模型开源，IDEA研究院封神榜团队开启中文AI艺术时代

该模型利用已经开源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替换了英文 stable-diffusion-v1-4 中的语言编码器，因为太乙 CLIP 模型已经具备了很强的中文图文概念，所以直接冻结英文 stable diffusion 的生成模型部分，在亿级别的高质量数据上微调语言编码器，调整学习率等超参数，将太乙 CLIP 模型理解的中文图文概念与 stable diffusion 生成能力对齐。

2022-11-03 17:02:30 1024 1

翻译训练ViT和MAE减少一半计算量！Sea和北大联合提出高效优化器Adan，深度模型都能用

目前一个普遍的解决方案是增大训练的batch size并辅助并行训练以减少训练时间，但是伴随的问题便是，大的batch size往往意味着performance的下降，并且batch size越大，情况越明显。随着ViT的提出，深度模型的训练方式变得越来越复杂。可以看到，例如在ViT-small、ViT-base、Swin-tiny以及Swin-base上，Adan仅仅消耗了一半的计算资源就获得了同SoTA优化器接近的结果，并且在同样的计算量下，Adan在两种ViT模型上均展现出较大的优势。

2022-11-02 16:14:15 321 1

翻译 NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

在 ScienceQA 任务中，作者提出 GPT-3 (CoT) 模型，即在 GPT-3 模型中引入基于思维链的提示学习，从而使得模型能在生成答案的同时，生成相应的推理解释。相反，通过基于思维链的提示学习，GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率，同时可以生成质量较高的解释：根据人类评估，其中 65.2% 的解释相关、正确且完整。为此，作者提出 GPT-3 (CoT) 模型，在提示中加入思维链（CoT），使得模型在生成答案的同时，可以生成对应的背景知识和解释。

2022-11-01 09:30:11 1528

转载 AI求解偏微分方程新基准登NeurIPS，发现JAX计算速度比PyTorch快6倍，LeCun转发：这领域确实很火

PDEBench不仅能当成一个大型偏微分方程数据集，也能作为新AI求解偏微分方程的基准之一——不少“老前辈”的预训练模型代码都能在这里找到，作为一个比对基础。

2022-10-27 16:43:00 325

转载「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

PALI模型已经使用 XM3600对图像描述、文本检索和文本检索的英文以外的模型性能进行了评估。研究人员发现，多语言描述可以让PaLI模型在缩放后性能更强，特别是对于资源较少的语言。

2022-10-27 11:55:52 268 1

转载【导读】后门学习新基准！BackdoorBench目前已集成了9种攻击方法、12种防御方法、5种分析工具，leaderboard公布了8000组攻防结果！

可以明显观察到不少的攻击在浓度提升到一定比例后都会造成防御后的ASR下降，也可以认为这是高浓度的攻击样本带来了较大的干净/投毒样本差异造成的，所以对于后门攻防来说，在低投毒浓度下保持攻击性能/抵御攻击将成为一个重要的方向。此外，遗忘性的评估实验中提供了一个精细的工具来分析每个单独的训练样本的贡献，这可以促进开发更先进的后门攻击和防御方法。首先，如第一列所示，中毒样本的损失函数在训练的早期阶段迅速下降，并收敛到一个低值，而干净样本的损失函数下降速度较慢且最终收敛到了一个更大的值。

2022-10-27 11:12:39 909 1

原创易学智能上运行JNeRF

NeRF 是 2020 年 ECCV 上获得最佳论文荣誉提名的工作，其影响力是十分巨大的，不论是后续的学术论文还是商业落地，都引起了大量从业人员的关注。本文意在借用易学智能算力平台于jittor框架搭建NeRF模型训练与测试流程。

2022-10-27 10:53:10 865 2

转载八卦：Gary Marcus又来「整顿」AI圈：LeCun不可信，Nature审稿人没用脑子

八卦：Gary Marcus又来「整顿」AI圈：LeCun不可信，Nature审稿人没用脑子

2022-10-27 09:42:26 119

原创人工智能开放创新平台

人工智能开放创新平台

2022-10-27 09:32:22 230 2

转载 MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

这些加速器的重点仍然是加速深度神经网络(DNN)模型，应用空间从极低功耗嵌入式语音识别和图像分类到数据中心规模的训练，而定义市场和应用领域的竞争继续作为现代计算向机器学习解决方案的更大的工业和技术转移的一部分。摩尔定律的趋势结束了[2]，许多相关的定律和趋势也结束了，包括德纳尔比例(功率密度)、时钟频率、核心计数、每时钟周期的指令和每焦耳(库米定律)的指令[3]。这项多年的综述工作和本文的重点是收集一个全面的人工智能加速器的列表，其计算能力，电力效率，并最终在嵌入式和数据中心应用中使用加速器的计算效率。

2022-10-27 09:16:37 991

转载 ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

虽然机器翻译可以快速的处理大量的文本语言转换，但是其准确性并不能得到保证，因此在翻译过程中将会引入大量的噪声，导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。为了进一步证明模型对抗翻译噪声的鲁棒能力，作者通过增加翻译次数以进一步增加训练数据的噪声程度，如图所示，在经过多次翻译后，基线模型的性能明显下降，而本文所提出的模型性能更加的稳定，验证了噪声鲁棒特征学习的有效性。如图所示，NRCCR 的类内特征更加的紧凑，表明了模型更好的学习到了跨语言跨模态对齐。

2022-10-27 09:14:40 281

转载机器狗能跑能跳，还能当守门员

让 Mini Cheetah 学会守门还是一件比较难的事，因为这涉及物体（例如球）抛出的高度以及动态移动的位置，具体而言，一方操纵一个快速移动的球，球的方向和位置不确定，而另一方需要迅速判断球的位置以阻止进球。想要完成这一任务，需要教会机器人动态移动它的身体，同时确保它的脚 (或脸) 到达它们需要及时阻挡球的地方，这基本上是将两个难题结合在一起。该研究表明，这款机器狗系统可以将在仿真中学习到的动态动作和守门员技能迁移到一个真正的四足机器人上，在现实世界中，对随机射门的守门成功率为 87.5%。

2022-10-26 17:24:56 143 1