技术文章
文章平均质量分 93
TechBeat人工智能社区
这个作者很懒,什么都没留下…
展开
-
CVPR 2024 | 长时舞蹈生成:数秒钟可生成极长的3D舞蹈
本文在现有扩散模型的基础上引入了一种全新的概念,称为“潜在透明度”(latent transparency),其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现,保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法,提高了整体的训练效率。原创 2024-03-22 12:55:35 · 1186 阅读 · 0 评论 -
ICCV 2023 Oral | 人类语言演化中学习最优图像颜色编码
人类的语言是一种对复杂世界的高度简洁的编码,特别是语言中颜色的概念,成功地将原本极大的色彩空间(如256三次方真色彩空间)压缩至5到10种颜色。受此启发,来自上海交大,日本理化学研究所,东京大学 的研究人员,提出全新的基于视觉任务的色彩量化(colour quantisation)技术,利用深度学习重现人类数万年的颜色概念的演化。这项技术不但能推进文化人类学的研究,更是为网络量化(neural network quantisation)以及多模态大语言模型提供坚实的研究基础。原创 2024-03-22 11:37:08 · 1162 阅读 · 0 评论 -
北航&悉尼大学联合研发突破性高效AI技术:双重二值化方法重塑大型语言模型效率
文中介绍的DB-LLM模型通过结合柔性双重二值化(FDB)方法和偏差感知蒸馏(DAD)方法,有效提升了大型语言模型(LLM)在超低位量化情况下的性能和效率。FDB方法有效地结合了二值化的运算效率和2位量化的准确性,通过将2位量化的权重分割成两组1位二进制数,不仅保持了超低位量化的高稀疏性,还提高了权重的灵活表示能力。而DAD方法则针对超低位量化后模型的预测偏差问题,通过利用教师-学生模型的熵作为样本难度的指标,优先处理不确定性高的样本,实现了从全精度教师模型到量化模型的更平衡的知识转移。原创 2024-03-21 17:47:17 · 825 阅读 · 0 评论 -
Cute idea!LeCun点赞,扩散模型跨界神经网络参数生成
本文提出了一种使用扩散模型生成神经网络参数的框架p-diff,p-diff可以从传统的SGD优化器得到的参数出发,生成具有较大差异的高性能网络参数,这一点与先前训练模型的过程有很大的差别,因而其能够始终相比原始训练数据实现相似甚至更强的性能。此外,本文作者也提到,由于网络参数是与图像视频性质不同的信号,因此必须谨慎考虑处理这种区别,虽然p-diff现在仍然无法生成现代规模的大模型参数,但是在训练算力焦虑笼罩的今天,这种想法非常振奋人心。我们期望更加优秀的扩散模型参数生成框架的出现。原创 2024-03-04 09:45:00 · 1029 阅读 · 0 评论 -
利用LLMs进行时间序列预测:理解和增强模型时间序列能力
近年来,大型语言模型在许多领域得到了快速发展和广泛应用。作为一个经典的机器学习任务,时间序列预测最近通过LLMs得到了提升。然而,在这一领域中,关于LLMs的偏好还存在研究空缺。本文通过将LLMs与传统模型进行比较,发现了LLMs在时间序列预测中的许多特性。例如,我们的研究显示LLMs擅长预测具有明确模式和趋势的时间序列,但面对缺乏周期性的数据集时则遇到挑战。我们通过设计提示要求LLMs告知数据集的周期来解释我们的发现。原创 2024-02-26 10:43:27 · 1247 阅读 · 0 评论 -
上海AI Lab联合上交推出复杂图表推理多模态评测基准ChartX与基座模型ChartVLM
近期,众多多模态大语言模型(MLLM)相继问世。然而,这些模型对于视觉图表中所包含的信息的感知能力以及推理能力尚未得到充分的挖掘与探索。本研究中,为了对现有的 MLLM 在图表领域的性能进行全方位、严格的评估,我们构建了ChartX评测基准,该基准由涵盖了18种图表类型、7个图表任务、22个学科主题的高质量图表数据构成,以及针对不同的图表任务采用了定制化的评估方式,例如用SCRM评价方式来更全面地评价视觉图表结构化信息提取任务。原创 2024-02-26 10:24:52 · 1355 阅读 · 0 评论 -
NeurIPS 2023 Spotlight | VoxDet:基于3D体素表征学习的新颖实例检测器
本文提出基于3D体素表征学习的新颖实例检测器VoxDet。给定目标实例的多视图,VoxDet建立该实例的三维体素表征。在更加杂乱的测试图片上,VoxDet使用体素匹配算法检测目标实例。实验表明,VoxDet中的三维体素表征与匹配比多种二维特征与匹配要更鲁棒、准确与高效。本文已收录于NeurIPS 2023并被选为SpotLight。原创 2024-02-26 10:12:31 · 924 阅读 · 0 评论 -
港中文联合MIT提出超长上下文LongLoRA大模型微调算法
本文针对LLM微调训练提出了一种名为LongLoRA的方法,它可以有效地将LLM的上下文窗口长度扩展到更长的范围。LongLoRA与标准完全微调方法相比,所使用的GPU显存成本和训练时间更少,并且精度损失也很小。在架构层面,作者将原始笨重的自注意力计算转换为更加轻量的shift short attention(S2-Attn),S2-Attn以独特的注意力头划分模式实现了局部的信息交互,从而带来更高效的性能,更关键的是,S2-Attn只需要两行代码就可以实现。原创 2024-02-26 10:03:47 · 1058 阅读 · 0 评论 -
ICLR 2024 | Harvard FairSeg:第一个研究分割算法公平性的大型医疗分割数据集
在本次工作中, 我们提出了第一个研究医疗分割算法的公平性的大型数据集 并且提出了方法尝试提升不同组别的公平性。尽管如此, 通过实验我们仍然发现不同组别直接的分割准确性差异仍然存在。未来希望通过我们和整个机器学习社区的共同努力, 能够提升弱势组别的准确性,而达到真正的分割公平性, 使得医疗分割模型能更好的部署在真实的医疗场景中。原创 2024-02-08 14:35:34 · 933 阅读 · 0 评论 -
AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL,高效提升下游性能
本文作者首先对现有基于提示的图像分类方法的缺陷进行了分析,即这些方法无法很好的关注到图像的局部关键信息。本文提出另一种全新的多模态提示学习方法CoPL,CoPL通过动态学习提示权重并将生成的提示向量与局部图像进行特征对齐来解决上述问题。作者通过在包含11个不同的数据集和场景中进行了完整的视觉分类实验,包括zero-shot、few-shot等不同的实验设置。实验结果表明,经过CoPL方法处理后的多模态对齐特征,具有良好的下游任务适应能力。原创 2024-02-09 11:45:00 · 1123 阅读 · 1 评论 -
不到1s生成mesh! 高效文生3D框架AToM
本文提出了一种新颖的Amortized文本到3D模型生成框架AToM,AToM可以在没有3D 监督的情况下跨多个文本提示进行网络优化。AToM的训练过程基于三平面的网格生成器,这有助于更稳定的优化和提高对大规模数据集的通用性。此外,作者针对文本到3D网格生成过程,设计了一种两阶段Amortized优化策略,与普通的per-prompt方法相比,AToM 显着减少了训练时间,更重要的是,AToM 表现出很强的通用性,无需进一步优化即可为下游环境中的unseen提示生成高质量的 3D 内容。原创 2024-02-07 16:26:18 · 1818 阅读 · 0 评论 -
Google DeepMind最新研究,将视觉语言大模型作为强化学习的全新奖励来源
本文介绍了一种将现成的视觉语言模型(VLMs)作为强化学习奖励函数的框架,例如将多模态对齐CLIP模型的文本编码器和视觉编码器部署在强化学习模型中,而无需再特定领域的数据集上进行微调。通过对此类VLM在RL过程中的性能分析,作者发现,VLM模型生成的奖励质量会随着视觉编码器参数规模的增加而提高。这些结果表明,如果社区进一步发展出更大规模,更佳性能的视觉语言大模型,那我们训练更加通用的强化学习智能体的难度也会大大降低。原创 2024-02-07 16:12:21 · 1037 阅读 · 0 评论 -
大模型最新理论研究,根据模型输出反转LLM输入提示,让恶意攻击无处可藏
本文针对大型语言模型提出了一种全新的概念,即对LLM的输出进行提示反转(或者称为恢复提示),并从模型攻击和防御的角度分析和设计了一套专用的模型反转框架。作者首先对模型的输出分布进行分析,证明了LLM的当前输出logits中包含有大量的提示先验,随后设计了一种基于Transformer的Inversion Model。Inversion Model在大规模的指令数据集instructions-2M上进行了训练,可以在具有完整输出概率的情况下进行提示恢复。原创 2024-02-05 10:28:35 · 1138 阅读 · 0 评论 -
深入探索CoT有效性和推理步长对于LLM性能的影响
思想链(CoT)对于提高大型语言模型(LLM)的推理能力具有重要意义。然而,CoT 的有效性与提示中推理步骤的长度之间的相关性仍然很大程度上未知。为了阐明这一点,多家研究机构(西北大学、罗格斯大学、利物浦大学、新泽西理工学院)联合进行了研究并进行了几次实证实验来探索其中的关系。我们设计了扩展和压缩 CoT 的例子中的基本原理推理步骤的实验,同时保持所有其他因素不变,然后得到了一些很有趣的结论。image.png:::论文后续还会持续更新,欢迎提出意见。image.png。原创 2024-02-05 10:13:52 · 1115 阅读 · 0 评论 -
ICLR 2024 Oral | 三⾏代码,即插即⽤!NUS尤洋团队新作—InfoBatch,⽆损数据集动态剪枝加速
在这项工作中,作者提出了InfoBatch框架,能够在广泛的任务上可观地节省训练开销并加速。其核心的思想是根据样本拟合情况动态调整采样剪枝策略,并利用重缩放维持更新量的一致。作者在文中进一步探讨了该策略的适用范围和进一步的优化,期待此类工作以后能取代传统数据迭代方式,助力大模型时代训练加速。原创 2024-01-29 12:01:08 · 831 阅读 · 0 评论 -
大模型视觉理解能力更进一步,谷歌提出全新像素级对齐模型PixelLLM
本文介绍一篇来自谷歌研究院和加利福尼亚大学圣迭戈分校合作完成的论文,本文的研究团队深入探索了LLM在视觉嵌入空间的运行机制,并提出了一种可以将位置信息(例如一组点或框)作为输入或输出的视觉语言模型,称为PixelLLM(像素大模型)。当将位置作为输入时,PixelLLM会执行位置条件字幕生成任务(location-conditioned captioning),对用户给定的感兴趣区域生成对应的文字描述。而当模型将生成的位置信息作为输出时,PixelLLM会对每个输出单词的像素坐标进行回归,以达到密集word原创 2024-01-29 11:08:03 · 688 阅读 · 0 评论 -
NeurIPS 2023 Spotlight | 用于真实图像去模糊的层次结合扩散模型HI-Diff
本文介绍了一种新型图像去模糊模型——分层集成扩散模型(HI-Diff)。HI-Diff主要在高度压缩的潜在空间中运行扩散模型,以生成去模糊过程的先验特征。并且高度压缩的潜在空间确保了DM的效率。此外,HI-Diff采用分层集成模块,将先验与基于回归的模型在多个尺度上融合,增强了模型在处理复杂模糊场景时的泛化能力。通过在合成和真实世界模糊数据集上的全面实验,我们证明了HI-Diff超越了当前最先进的方法。原创 2024-01-29 10:59:58 · 1345 阅读 · 0 评论 -
AAAI 2024 | TEx-Face,5秒内按需生成照片级3D人脸
我们提出了一种合理可行的框架TEx-Face, 能够多条件地控制生成3D人脸并只需要几秒的时间。从可视化上,能够生成与文本和给定表情相一致的3D人脸。但这里还有许多存在的问题,如如何设计更好的模型获取style codes。原创 2024-01-17 14:41:44 · 1066 阅读 · 0 评论 -
一篇综述洞悉医学大型语言模型的原理,应用和挑战
在过去的一年中,随着 GPT-4、LLaMA、Mistral,PaLM 等先进技术的突飞猛进,大型语言模型(Large Language Models)已经引领全球人工智能进入了一个全新的基础模型时代,这一时代不仅开启了技术创新的新篇章,也彻底重塑了各行各业的运作模式。特别是在医疗领域,这些变革显得尤为突出。医疗领域不仅是全球各国竞相投资的重点研究领域,而且与一个国家的医疗水平和综合国力密切相关。在这样的背景下,大型语言模型在医疗领域究竟能带来怎样的变革和影响?原创 2024-01-17 14:34:14 · 2066 阅读 · 0 评论 -
短剧时代即将来临?AI 自动生成剧本和多场景长视频
本方案提出了VideoDrafter模型,一种以大语言模型为基础的内容一致多场景视频生成技术。利用大语言模型对文本信息的强理解性,对输入的单个文本提示进行多场景视频事件的拓写,保证不同视频事件的逻辑相关性。在对应不同事件的不同场景视频生成的过程中,利用前景和背景实体参考图指导视频的生成,保证了不同场景中视频内容主体在视觉外貌特征上的一致性。本方案提及的多场景视频生成方案,对大语言模型的利用和保持视频内容一致性的尝试,希望对后续具有因果关系的视频生成具有一定的启发作用。原创 2024-01-08 10:18:32 · 1190 阅读 · 0 评论 -
AAAI 2024|ETH轻量化Transformer最新研究,浅层MLP完全替换注意力模块提升性能
本文介绍了一种简单直接的Transformer架构优化方法,以Transformer模型中的核心操作自注意力(SA)和交叉注意力层(CA)为优化目标,直接使用简单高效的MLP层进行替换。根据替换抽象程度和模型参数缩减规模,作者提出了四种替换模式:ALR、ALRR、ASLR和ELR,然后通过知识蒸馏技术将原始Transformer模型的拟合能力迁移到这些轻量化的MLP层中。原创 2024-01-08 10:08:44 · 6085 阅读 · 0 评论 -
3DV 2024 Oral | SlimmeRF:可动态压缩辐射场,实现模型大小和建模精度的灵活权衡
辐射场(Radiance Fields)是一种通过神经网络等方法对3D场景进行建模的方法。效果较好的辐射场模型会对内存等资源要求较高,因此难以应用于资源较为稀缺的应用场景;相反,比较节省内存资源、算力资源等的模型则可能效果不佳。因此,当需要训练能够兼容高负载能力与低负载能力环境的模型时,就只能采用后者,因为前者无法在低负载能力环境中运行。然而实际情况是,往往高负载能力的环境也有较高对模型效果的需求,而低负载能力的环境则对模型效果需求不高,因此前述的方法不符合高负载能力环境下的需求。原创 2023-12-27 15:26:26 · 1273 阅读 · 0 评论 -
MetaAI语音翻译大模型Seamless登场,主打AI无缝同声传译
MetaAI发布的Seamless模型为我们展现出了惊人的同声传译效果,并且支持近 100 种语言,其中的多任务基础模型SeamlessM4T v2在多个语音基线上实现了SOTA性能,Seamless Expressive可以保证翻译时保留说话人的韵律和语音风格,SeamlessStreaming中的高效多头注意力EMMA可以有针对性地实现并行低延迟翻译,而无需等待当前话语结束。原创 2023-12-17 21:50:27 · 2142 阅读 · 1 评论 -
GPT-4V被超越?SEED-Bench多模态大模型测评基准更新
大语言模型(LLM)的蓬勃发展离不开健全的评测体系,而对于多模态大语言模型(MLLM)而言,一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab推出了SEED-Bench系列评测基准,有效弥补了这一缺陷,目前已成为测评MLLM的主流基准之一。原创 2023-12-15 14:55:03 · 1588 阅读 · 0 评论 -
视频中自监督学习:「我的世界」下指令理解与跟随
本文介绍了北京大学人工智能研究院梁一韬助理教授所带领的 CraftJarvis 团队在「我的世界」环境下探索通用智能体设计的新进展,题为“GROOT: Learning to Follow Instructions by Watching Gameplay Videos”。该研究的核心目标是探索能否摆脱文本数据的标注以及与环境的在线交互,而是仅通过观看游戏视频的方式来教会智能体理解世界、遵循指令,进而在开放世界下解决无穷的任务。原创 2023-12-11 21:04:44 · 1286 阅读 · 0 评论 -
大道至简?ETH研究团队提出简化版Transformer模型,综合效率明显提升
本文针对Transformer架构中的基础块进行了一系列的理论分析和优化简化工作,但作者提到,尽管本文提出的简化块在很多架构和数据集上均能实现更高效的性能,但是目前所考虑的模型相对于几十亿和几百亿参数的transformer来说还是很小的。但是通过本文的深度缩放等实验,证明了简化块在更深层次网络中进行信息传递的潜力,这表明,通过进一步在信号传播理论层面探索基础块的运行机制,就可以将简化块扩展到更深层次和更多参数的LLMs中,将会大幅度降低参数占用和训练时间,降低大模型实际落地的成本。原创 2023-12-11 20:19:36 · 1138 阅读 · 0 评论 -
WSDM 2024 | LLMs辅助基于内容的推荐系统&增强BPR训练数据
本研究聚焦于设计LLM增强多模态推荐模型,以有效应对稀疏的隐式反馈信号和低质量附加信息的挑战。通过对用户交互偏好的建模和去偏商品属性,我们提出了一种解决方案。为确保增强数据的质量,我们引入了一个去噪的增强鲁棒机制。尽管目前我们主要集中在使用LLMs对文本信息进行增强,未来的研究方向应该更进一步。图片来自“Recommender Systems in the Era of Large Language Models (LLMs)”原创 2023-11-29 16:04:55 · 1515 阅读 · 0 评论 -
NeurIPS 2023|AI Agents先行者CAMEL:第一个基于大模型的多智能体框架
AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架(“骆驼”),CAMEL框架是最早基于ChatGPT的autonomous agents知名项目,目前已被顶级人工智能会议NeurIPS 2023录用。原创 2023-11-24 16:45:10 · 1538 阅读 · 0 评论 -
如何让大模型更好地完成知识图谱推理?
该论文探索了如何将知识图谱中的结构知识引入大语言模型中,以更好地完成知识图谱推理,同时提出了一个新的知识前缀适配器,将从知识图谱中提取到的向量化的结构知识注入到大模型中。在未来,作者将进一步探索基于大语言模型的复杂知识图谱推理,同时也将关注如何利用知识图谱使得大语言模型能够在知识感知的情况下完成更多下游任务比如问答、对话等等。关于TechBeat人工智能社区▼TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。原创 2023-11-24 16:39:30 · 1518 阅读 · 0 评论 -
EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解释理论框架
本文提出了一种针对LLMs中In-Context Learning的理论探索框架,揭示了一种ICL学习机制的新视角。本文提出的框架具备了简单而优雅的特性,其假设ICL过程通过将输入的训练示例压缩为单个任务向量来发挥作用,并且引导Transformer层根据给定的查询生成目标输出。将原本LLMs复杂的前向传递过程分解为一种学习算法和规则机制的组合,并且通过了大量的实验支持了本文的观点。目前社区的研究方向主要集中在如何提高LLMs的推理性能,但更需要探索LLM内部机理的基础工作作为指导。原创 2023-11-16 00:14:58 · 454 阅读 · 0 评论 -
类人的系统泛化性完全可以通过组合元学习框架实现,NYU最新成果登上Nature
在本文中,作者团队完整的证明了神经网络在优化其组合技能时可以实现类似人类的系统性,这有效的回应了Fodor和Pylyshyn在多年前提出的挑战。具体来说,本文提出了一种称为组合性元学习(meta-learning for compositionality,MLC)的方法,MLC可以通过动态的任务组合来指导模型训练。原创 2023-11-10 23:19:24 · 564 阅读 · 0 评论 -
ICCV 2023|PViC:构建交互谓词视觉上下文,高效提升HOI Transformer检测性能
在本文中,作者首先分析了现有基于DETR框架的两阶段HOI检测器中的视觉特征建模效果,并得出结论,它们的主要弱点是缺乏与当前谓词动作相关的上下文信息,因为它们原来是专门针对定位任务设计和训练的。因此本文提出了一种改进的设计,通过交叉注意力将图像特征重新引入人-物体对表示中,为此,本文作者对注意力计算中的键和查询向量的构建进行了重新设计,并引入边界框的位置编码作为空间引导,来实现更加明确的计算人-物交互的交叉注意力。原创 2023-11-08 12:04:30 · 334 阅读 · 0 评论 -
NeurIPS 2023 | 对比损失深度刨析!三星研究院提出全新连续性对比损失CMCL
本文的实验主要针对两种模态转换进行,即图像-文本和语音-文本。对于图像-文本对,作者进行了图像分类和图像/文本检索的zero-shot迁移实验。在这两项任务中,CWCL的zero-shot迁移性能都超过了目前的SOTA方法。而对于语音-文本模态,作者进行了语音-意图分类和关键字查询任务,下面将分别介绍这些实验的细节。本文提出了一种新型的用于跨模态对比学习范式中损失函数,称为连续加权对比损失CWCL,原创 2023-11-03 12:53:42 · 321 阅读 · 0 评论 -
TPAMI 2023 | Temporal Perceiver:通用时序边界检测方法
在这篇工作中,我们为不同语义粒度的自然边界检测提出了一个通用检测框架 Temporal Perceiver (TP)。TP 基于 Transformer Decoder 结构提出了一个有效的边界检测管线,为任意自然边界的检测提供了统一的网络结构。我们的核心贡献在于使用交叉注意力模块和一个 latent query 集合来将冗余的视频输入压缩到一个固定大小的隐空间里,以降低复杂度到线性。原创 2023-11-03 12:52:08 · 309 阅读 · 0 评论 -
MetaAI提出全新验证链框架CoVE,大模型也可以通过“三省吾身”来缓解幻觉现象
本文引入了一种称为验证链(CoVE)的大模型幻觉消除方法,这是一种通过仔细考虑自身的反应并进行自我纠正的方法。CoVE通过将初始问题的回答进行合理的拆分,并对拆分的问题进行单独的验证,模型就可以相比回答原始查询时更加准确地回答问题。其次,在回答一组验证问题时,CoVE可以控制模型不受先前答案和上下文的影响,从而有效的减轻幻觉的生成。总体来说,CoVE是一项简单而有效的方法,本文作者还提到,后续可以为CoVE配备一些工具来使用。例如,在验证执行步骤中使用可以使用在线检索增强技术,这可能会带来进一步的性能提升。原创 2023-11-01 13:03:38 · 383 阅读 · 0 评论 -
移动端ViT新利器!苹果提出稀疏专家混合模型Mobile V-MoEs
目前,在深度学习模型落地部署领域,正在经历着从CNN向视觉ViT过度的大潮流,基于CNN的移动端轻量级网络(如MobileNet)也亟待升级。本文介绍了一种移动端ViT轻量化的最新技术,作者将稀疏MoEs迁移到视觉ViT模型架构中,与其对应的密集ViT相比,稀疏MoE可以实现高效的性能与效率权衡,这使得将更多类型的视觉ViT模型部署到移动端计算设备上成为可能。此外本文作者展望到,如果能将稀疏MoEs技术应用到CNN和视觉ViT结合的算法模型上,可能会得到更好的推理效果。原创 2023-10-27 12:38:04 · 286 阅读 · 0 评论 -
NeurIPS 2023 | FedFed:特征蒸馏应对联邦学习中的数据异构
在本文中,我们提出了一种新的即插即用的联邦学习模块,FedFed,其能够以特征蒸馏的方式来解决联邦场景下的数据异构问题。FedFed首次探索了对数据中部分特征的提取与分享,大量的实验显示,FedFed能够显著地提升联邦学习在异构数据场景下的性能和收敛速度。原创 2023-10-25 17:48:24 · 962 阅读 · 1 评论 -
挑战没有免费的午餐定理?南洋理工提出扩散模型增强方法FreeU
机器学习领域中一个著名的基本原理就是“没有免费的午餐定理”,该定理指示我们:没有一种机器学习算法是适用于所有情况的,简单来说就是在构建算法时,有得必有失。本文介绍一篇来自南洋理工大学S-Lab的研究论文,本文的题目非常有趣:“扩散U-Net网络中的免费午餐”。作者在文中对U-Net架构在扩散过程中的基本原理进行了深入的探索,作者发现,U-Net的backbone网络主要来完成去噪过程,而其中的跳跃连接主要将高频特征引入解码器模块,从而导致整体模型忽略了从backbone中提取到的语义信息。因此本文提出了一种原创 2023-10-25 12:00:00 · 550 阅读 · 1 评论 -
强化学习与视觉语言模型之间的碰撞,UC伯克利提出语言奖励调节LAMP框架
回过头看,强化学习领域也经历了从手工设计奖励函数到网络自主学习的发展历程。手工设计的奖励函数往往会过度工程化,这使得其无法适用于新的代理程序和新的环境,因此发展出来通过从大量演示数据中学习所需的最优奖励函数,但是这种方式也会带来大量的噪声和错误的奖励,这在高精密机器人操纵等复杂的任务领域是不可靠的。本文作者受现有大型预训练VLMs的启发,VLM可以在多种任务上展现出高效的zero-shot性能,且拥有快速适应新任务的能力。同时VLMs的训练过程是通过。原创 2023-10-17 12:00:00 · 937 阅读 · 0 评论 -
NeurIPS 2023 | AD-PT:首个大规模点云自动驾驶预训练方案
在这项工作中,作者提出了 AD-PT 范式,旨在在统一的数据集上进行预训练,训练出泛化性强且表征能力强的骨干网络,从而提升在多个下游数据集上的性能。通过所提出的数据准备流程以及未知实例学习头,分别从数据集算法层面提升模型的泛化能力。在多个基准数据集上的实验表明,AD-PT的预训练权重可以加载到多种检测器中,并且取得性能的提升。关于TechBeat人工智能社区▼TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。原创 2023-10-16 12:00:00 · 548 阅读 · 0 评论