TechBeat人工智能社区-CSDN博客

原创 CVPR 2024 | 长时舞蹈生成：数秒钟可生成极长的3D舞蹈

本文在现有扩散模型的基础上引入了一种全新的概念，称为“潜在透明度”（latent transparency），其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现，保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法，提高了整体的训练效率。

2024-03-22 12:55:35 1051

原创 Talk｜Mila研究所&蒙特利尔大学刘圳：三维表征和三维网格的重建与生成

本期为TechBeat人工智能社区第580期线上Talk。北京时间3月21日(周四)20:00，Mila研究所&蒙特利尔大学博士生—刘圳的Talk已经准时在TechBeat人工智能社区开播！他与大家分享的主题是:“三维表征和三维网格的重建与生成”，向大家系统地介绍了如何通过三维表征的设计来帮助三维网格的重建与生成。

2024-03-22 12:00:00 504

原创 ICCV 2023 Oral | 人类语言演化中学习最优图像颜色编码

人类的语言是一种对复杂世界的高度简洁的编码，特别是语言中颜色的概念，成功地将原本极大的色彩空间（如256三次方真色彩空间）压缩至5到10种颜色。受此启发，来自上海交大，日本理化学研究所，东京大学的研究人员，提出全新的基于视觉任务的色彩量化（colour quantisation）技术，利用深度学习重现人类数万年的颜色概念的演化。这项技术不但能推进文化人类学的研究，更是为网络量化(neural network quantisation)以及多模态大语言模型提供坚实的研究基础。

2024-03-22 11:37:08 1084

原创北航&悉尼大学联合研发突破性高效AI技术：双重二值化方法重塑大型语言模型效率

文中介绍的DB-LLM模型通过结合柔性双重二值化（FDB）方法和偏差感知蒸馏（DAD）方法，有效提升了大型语言模型（LLM）在超低位量化情况下的性能和效率。FDB方法有效地结合了二值化的运算效率和2位量化的准确性，通过将2位量化的权重分割成两组1位二进制数，不仅保持了超低位量化的高稀疏性，还提高了权重的灵活表示能力。而DAD方法则针对超低位量化后模型的预测偏差问题，通过利用教师-学生模型的熵作为样本难度的指标，优先处理不确定性高的样本，实现了从全精度教师模型到量化模型的更平衡的知识转移。

2024-03-21 17:47:17 766

原创 Talk｜卡内基梅隆大学李博文：适用于机器人的可泛化的目标感知

本期为TechBeat人工智能社区第579期线上Talk。北京时间3月20日(周三)20:00，卡内基梅隆大学博士生—李博文的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“适用于机器人的可泛化的目标感知”，向大家系统地介绍了如何在有限的数据上学习到可泛化的，适用于机器人的目标感知模型。

2024-03-21 11:55:25 737

原创 Talk｜加州大学洛杉矶分校鲁盼：基于大型语言模型的多模态数学推理

本期为TechBeat人工智能社区第579期线上Talk。北京时间3月14日(周四)20:00，加州大学洛杉矶分校博士生—鲁盼的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“基于大型语言模型的多模态数学推理”，向大家系统地介绍了多模态的数学推理的进展和挑战。

2024-03-15 12:00:00 827

原创 Talk｜麻省理工学院李晨昊：发展式腿足智能-从模仿到生成

本期为TechBeat人工智能社区第578期线上Talk。北京时间3月13日(周三)20:00，麻省理工学院博士生—李晨昊的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“发展式腿足智能-从模仿到生成”，向大家系统地介绍了专家示范(expert demonstrations)在机器人学中的作用，以及从受限演示中学习的三种创新方法，并展示它们在腿部机器人学中的成功应用。

2024-03-14 12:00:00 657

原创 CVPR 2024 | 从第一人称视角理解世界，多模态模型离我们还有多远？

该工作为考察多模态模型作为智能体或机器人大脑的潜力，提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解，并对每个能力维度进行了详尽的评测。评测结果显示，当前阶段的视觉语言大模型，包括GPT-4V，从第一人称视角进行思考的整体能力上还远未达到人类水平。

2024-03-13 12:00:00 895

原创 ICLR 2024 | Meta AI提出ViT寄存器结构，巧妙消除大型ViT中的伪影以提高性能

在这项工作中，作者对 DINOv2 模型特征图中的伪影进行了详尽的研究，并发现这种现象存在于多个现有的流行ViT模型中。作者提供了一种简单的检测伪影的方法，即通过测量token的特征范数来实现。通过研究这些token的局部位置和全局特征信息，作者发现，这些token对于模型性能损失存在一定的影响，并提出了一种简单的寄存器方案（Registers）来将这些token附加到输入序列中。通过实验表明，这种方法完全消除了ViT特征图中的伪影，并且提高了模型在下游密集预测等任务上的性能。

2024-03-10 23:58:44 953 1

原创 Talk｜上海交通大学&上海AI Lab：复杂图表推理多模态评测基准与基座模型

本期为TechBeat人工智能社区第577期线上Talk。北京时间3月7日(周四)20:00，上海交通大学博士生—夏纫秋以及上海人工智能实验室科研助理—叶涵诚的Talk已准时在TechBeat人工智能社区开播！他们与大家分享的主题是:“复杂图表推理多模态评测基准与基座模型”，向大家介绍了其团队在复杂图表推理方面所做的研究。

2024-03-08 13:15:43 494

原创 Talk｜加州大学圣地亚哥分校程旭欣：视觉反馈下足式机器人的全身操作与运动

程旭欣是UCSD的一年级博士生，导师是Xiaolong Wang，他的主要研究兴趣是足式机器人的全身控制。在 CMU 读机器人硕士期间，他的主要研究方向是利用强化学习实现四足机器人的全身控制，操作和运动, Deep Whole-Body Control 曾入围 CoRL 最佳系统论文, 导师为 Deepak Pathak。附加的机械臂完成自动抓取，视觉反馈下的极限运动能力都是很有价值的探索方向。期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

2024-03-07 12:31:41 909

原创 Cute idea！LeCun点赞，扩散模型跨界神经网络参数生成

本文提出了一种使用扩散模型生成神经网络参数的框架p-diff，p-diff可以从传统的SGD优化器得到的参数出发，生成具有较大差异的高性能网络参数，这一点与先前训练模型的过程有很大的差别，因而其能够始终相比原始训练数据实现相似甚至更强的性能。此外，本文作者也提到，由于网络参数是与图像视频性质不同的信号，因此必须谨慎考虑处理这种区别，虽然p-diff现在仍然无法生成现代规模的大模型参数，但是在训练算力焦虑笼罩的今天，这种想法非常振奋人心。我们期望更加优秀的扩散模型参数生成框架的出现。

2024-03-04 09:45:00 956

原创 Talk｜卡内基梅隆大学熊浩宇：Open-world Mobile Manipulation-开放世界机器人学习系统

本期为TechBeat人工智能社区第575期线上Talk。北京时间2月29日(周四)20:00，卡内基梅隆大学研究生—熊浩宇的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“Open-world Mobile Manipulation-开放世界机器人学习系统”，将向大家介绍了开放世界机器人系统硬件，数据收集到模型部署的全栈方法等相关研究。

2024-03-01 12:00:00 296

原创 Mamba与MoE架构强强联合，Mamba-MoE高效提升LLM计算效率和可扩展性

本文提出了一种将专家混合MoE技术与Mamba架构进行集成的模块，即MoE-Mamba。基于并行计算的天然优势，Mamba减轻了大模型中复杂循环顺序性质的影响，并且对硬件进行感知来实现参数扩展。Mamba相比普通注意力机制Transformer解决了序列模型中效率和有效性之间的基本权衡，强调了状态压缩的重要性。将Mamba与高度稀疏的MoE前馈层交错设置可以实现更高推理效率的LLM，但目前的组合方式仍然非常简单，作者也探索了一种局部并行的Mamba+MoE架构以实现更高的预测准确率和更稀疏的推理效果。

2024-03-01 11:01:31 1205

原创 ICLR 2024｜ReLU激活函数的反击，稀疏性仍然是提升LLM效率的利器

本文对LLM中使用的激活函数进行了大规模的研究，作者发现，在LLM预训练和微调期间激活函数的选择不会对性能产生显着影响，而使用经典的 ReLU 可以为LLM提供稀疏性和更高效的推理效率。考虑到现有流行的LLM（例如Llama和Falcon）均已使用非ReLU激活函数进行预训练，从头对它们进行训练耗费的代价太大，

2024-03-01 10:57:57 1050

原创 Talk｜上海交通大学晋嘉睿：序列建模技术在推荐系统中的应用

本期为TechBeat人工智能社区第574期线上Talk。北京时间2月28日(周三)20:00，上海交通大学博士生—晋嘉睿的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“序列建模技术在推荐系统中的应用”，系统地介绍了他们在序列数据的建模等相关工作所做的研究。

2024-02-29 13:58:47 888

原创利用LLMs进行时间序列预测：理解和增强模型时间序列能力

近年来，大型语言模型在许多领域得到了快速发展和广泛应用。作为一个经典的机器学习任务，时间序列预测最近通过LLMs得到了提升。然而，在这一领域中，关于LLMs的偏好还存在研究空缺。本文通过将LLMs与传统模型进行比较，发现了LLMs在时间序列预测中的许多特性。例如，我们的研究显示LLMs擅长预测具有明确模式和趋势的时间序列，但面对缺乏周期性的数据集时则遇到挑战。我们通过设计提示要求LLMs告知数据集的周期来解释我们的发现。

2024-02-26 10:43:27 1004

原创上海AI Lab联合上交推出复杂图表推理多模态评测基准ChartX与基座模型ChartVLM

近期，众多多模态大语言模型（MLLM）相继问世。然而，这些模型对于视觉图表中所包含的信息的感知能力以及推理能力尚未得到充分的挖掘与探索。本研究中，为了对现有的 MLLM 在图表领域的性能进行全方位、严格的评估，我们构建了ChartX评测基准，该基准由涵盖了18种图表类型、7个图表任务、22个学科主题的高质量图表数据构成，以及针对不同的图表任务采用了定制化的评估方式，例如用SCRM评价方式来更全面地评价视觉图表结构化信息提取任务。

2024-02-26 10:24:52 1121

原创 NeurIPS 2023 Spotlight | VoxDet：基于3D体素表征学习的新颖实例检测器

本文提出基于3D体素表征学习的新颖实例检测器VoxDet。给定目标实例的多视图，VoxDet建立该实例的三维体素表征。在更加杂乱的测试图片上，VoxDet使用体素匹配算法检测目标实例。实验表明，VoxDet中的三维体素表征与匹配比多种二维特征与匹配要更鲁棒、准确与高效。本文已收录于NeurIPS 2023并被选为SpotLight。

2024-02-26 10:12:31 838

原创港中文联合MIT提出超长上下文LongLoRA大模型微调算法

本文针对LLM微调训练提出了一种名为LongLoRA的方法，它可以有效地将LLM的上下文窗口长度扩展到更长的范围。LongLoRA与标准完全微调方法相比，所使用的GPU显存成本和训练时间更少，并且精度损失也很小。在架构层面，作者将原始笨重的自注意力计算转换为更加轻量的shift short attention（S2-Attn），S2-Attn以独特的注意力头划分模式实现了局部的信息交互，从而带来更高效的性能，更关键的是，S2-Attn只需要两行代码就可以实现。

2024-02-26 10:03:47 848

原创 Talk｜北京理工大学陈焕然：损失函数景观与泛化性的关系

本期为TechBeat人工智能社区第573期线上Talk。北京时间2月22日(周四)20:00，北京理工大学本科生—陈焕然的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“损失函数景观与泛化性的关系”，系统地介绍了他们在发现loss landscape closeness也和泛化性强相关等相关工作所做的研究。

2024-02-23 11:47:47 949

原创 Talk｜北京大学杨灵：扩散模型的算法创新与领域应用

本期为TechBeat人工智能社区第572期线上Talk。北京时间2月21日(周三)20:00，北京大学博士生—杨灵的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“扩散模型的算法创新与领域应用”，系统地介绍了他的团队基于扩散模型的算法创新与领域应用等相关工作所做的研究。

2024-02-22 12:03:07 564

原创 Talk｜香港科技大学苟耘豪：MoCLE - 指令聚类MoE+通用专家解决多模态大模型任务冲突

本期为TechBeat人工智能社区第571期线上Talk。北京时间2月8日(周四)20:00，香港科技大学博士生—苟耘豪的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“MoCLE - 指令聚类MoE+通用专家解决多模态大模型任务冲突”，系统地介绍了他的团队基于指令聚类和通用专家的MoE多模态大模型微调方法等相关工作所做的研究。

2024-02-09 12:00:00 780

原创 AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL，高效提升下游性能

本文作者首先对现有基于提示的图像分类方法的缺陷进行了分析，即这些方法无法很好的关注到图像的局部关键信息。本文提出另一种全新的多模态提示学习方法CoPL，CoPL通过动态学习提示权重并将生成的提示向量与局部图像进行特征对齐来解决上述问题。作者通过在包含11个不同的数据集和场景中进行了完整的视觉分类实验，包括zero-shot、few-shot等不同的实验设置。实验结果表明，经过CoPL方法处理后的多模态对齐特征，具有良好的下游任务适应能力。

2024-02-09 11:45:00 863

原创 ICLR 2024 | Harvard FairSeg：第一个研究分割算法公平性的大型医疗分割数据集

在本次工作中, 我们提出了第一个研究医疗分割算法的公平性的大型数据集并且提出了方法尝试提升不同组别的公平性。尽管如此，通过实验我们仍然发现不同组别直接的分割准确性差异仍然存在。未来希望通过我们和整个机器学习社区的共同努力，能够提升弱势组别的准确性，而达到真正的分割公平性，使得医疗分割模型能更好的部署在真实的医疗场景中。

2024-02-08 14:35:34 833

原创 Talk｜香港中文大学(深圳)张雪遥：音频生成开源工具包Amphion的歌声转换指南

本期为TechBeat人工智能社区第570期线上Talk。北京时间2月7日(周三)20:00，香港中文大学(深圳)博士生—张雪遥的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“音频生成开源工具包Amphion的歌声转换指南”，系统地介绍他的团队提出的针对歌声转换的音频生成开源工具包Amphion，包括该任务的定义、研究发展脉络、最前沿的技术框架范式，以及Amphion对该任务的集成思路与架构设计等相关工作所做的研究。

2024-02-08 12:00:00 741

原创不到1s生成mesh! 高效文生3D框架AToM

本文提出了一种新颖的Amortized文本到3D模型生成框架AToM，AToM可以在没有3D 监督的情况下跨多个文本提示进行网络优化。AToM的训练过程基于三平面的网格生成器，这有助于更稳定的优化和提高对大规模数据集的通用性。此外，作者针对文本到3D网格生成过程，设计了一种两阶段Amortized优化策略，与普通的per-prompt方法相比，AToM 显着减少了训练时间，更重要的是，AToM 表现出很强的通用性，无需进一步优化即可为下游环境中的unseen提示生成高质量的 3D 内容。

2024-02-07 16:26:18 1593

原创 Google DeepMind最新研究，将视觉语言大模型作为强化学习的全新奖励来源

本文介绍了一种将现成的视觉语言模型（VLMs）作为强化学习奖励函数的框架，例如将多模态对齐CLIP模型的文本编码器和视觉编码器部署在强化学习模型中，而无需再特定领域的数据集上进行微调。通过对此类VLM在RL过程中的性能分析，作者发现，VLM模型生成的奖励质量会随着视觉编码器参数规模的增加而提高。这些结果表明，如果社区进一步发展出更大规模，更佳性能的视觉语言大模型，那我们训练更加通用的强化学习智能体的难度也会大大降低。

2024-02-07 16:12:21 908

原创大模型最新理论研究，根据模型输出反转LLM输入提示，让恶意攻击无处可藏

本文针对大型语言模型提出了一种全新的概念，即对LLM的输出进行提示反转（或者称为恢复提示），并从模型攻击和防御的角度分析和设计了一套专用的模型反转框架。作者首先对模型的输出分布进行分析，证明了LLM的当前输出logits中包含有大量的提示先验，随后设计了一种基于Transformer的Inversion Model。Inversion Model在大规模的指令数据集instructions-2M上进行了训练，可以在具有完整输出概率的情况下进行提示恢复。

2024-02-05 10:28:35 951

原创深入探索CoT有效性和推理步长对于LLM性能的影响

思想链（CoT）对于提高大型语言模型（LLM）的推理能力具有重要意义。然而，CoT 的有效性与提示中推理步骤的长度之间的相关性仍然很大程度上未知。为了阐明这一点，多家研究机构（西北大学、罗格斯大学、利物浦大学、新泽西理工学院）联合进行了研究并进行了几次实证实验来探索其中的关系。我们设计了扩展和压缩 CoT 的例子中的基本原理推理步骤的实验，同时保持所有其他因素不变，然后得到了一些很有趣的结论。image.png:::论文后续还会持续更新，欢迎提出意见。image.png。

2024-02-05 10:13:52 920

原创 Talk｜香港科技大学刘智立：Geom-Erasing - 图像生成模型中的隐式概念删除

本期为TechBeat人工智能社区第569期线上Talk。北京时间2月1日(周四)20:00，香港科技大学博士生—刘智立的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“Geom-Erasing - 图像生成模型中的隐式概念删除”，系统地介绍了他的团队提出的基于几何位置信息的概念去除算法Geom-Erasing，以及Geom-Erasing如何有效地抑制隐含概念的产生等相关工作所做的研究。

2024-02-02 12:00:00 890

原创 Talk｜中国科学院信息工程研究所王子泰：面向长尾学习的局部泛化分析技术

本期为TechBeat人工智能社区第568期线上Talk。北京时间1月31日(周三)20:00，中国科学院信息工程研究所博士生—王子泰的Talk已准时在TechBeat人工智能社区开播！他与大家分享的主题是:“面向长尾学习的局部泛化分析技术”，系统地介绍了他的团队在长尾学习泛化分析等相关工作所做的研究。

2024-02-01 12:00:00 263

原创 ICLR 2024 Oral | 三⾏代码，即插即⽤！NUS尤洋团队新作—InfoBatch，⽆损数据集动态剪枝加速

在这项工作中，作者提出了InfoBatch框架，能够在广泛的任务上可观地节省训练开销并加速。其核心的思想是根据样本拟合情况动态调整采样剪枝策略，并利用重缩放维持更新量的一致。作者在文中进一步探讨了该策略的适用范围和进一步的优化，期待此类工作以后能取代传统数据迭代方式，助力大模型时代训练加速。

2024-01-29 12:01:08 735

原创大模型视觉理解能力更进一步，谷歌提出全新像素级对齐模型PixelLLM

本文介绍一篇来自谷歌研究院和加利福尼亚大学圣迭戈分校合作完成的论文，本文的研究团队深入探索了LLM在视觉嵌入空间的运行机制，并提出了一种可以将位置信息（例如一组点或框）作为输入或输出的视觉语言模型，称为PixelLLM（像素大模型）。当将位置作为输入时，PixelLLM会执行位置条件字幕生成任务（location-conditioned captioning），对用户给定的感兴趣区域生成对应的文字描述。而当模型将生成的位置信息作为输出时，PixelLLM会对每个输出单词的像素坐标进行回归，以达到密集word

2024-01-29 11:08:03 624

空空如也

空空如也