- 博客(5433)
- 收藏
- 关注
转载 录用率仅22%!如何看待CVPR 2025的审稿结果?
作为计算机视觉领域的顶级盛会,CVPR堪称论文界的“奥斯卡”,每一篇被录用的论文都代表着行业前沿的方向,引领着技术的发展。今年的竞争异常激烈,共收到13008份投稿,最终仅有2878篇被录用,录取率仅为22.1%。从选题辅导、文献阅读、文献翻译&润色、创新点评估、期刊推荐、AutoML全面辅助科研流程,提供专业的科研背景提升、留学申请、作业辅导、基金申请、科研立项等服务;科研0基础课程、AI入门算法基础课程、AI前沿论文带读课程。上周,CVPR 2025的论文接收结果正式公布!QS top100博士。
2025-03-20 12:37:44
15
转载 AI Agent真的安全吗?南洋理工最新综述揭秘LLM Agent安全风险与防御策略
外部可信度关注与 Agent 系统交互的外部模块的可信度。在 TrustAgent Survey 的定义中,Agent 系统是一个具有类人认知的独立实体,由具有记忆的大脑和工具形式的行为组成。通过深入研究和总结新出现的针对代理和多智能体系统的攻击、防御和评估方法,TrustAgent Survey 将可信 LLM 的概念扩展到可信 Agent 的新兴范式。:将 LLM 可信度的维度扩展到单代理和 MAS 的上下文中,具体分为安全性、隐私性、真实性、公平性和鲁棒性,并引用了所有这些维度的现有工作。
2025-03-20 12:37:44
20
转载 博士申请 | 新加坡科技设计大学孙竹老师招收推荐系统方向全奖博士/访问学生
孙竹,博士毕业于新加坡南洋理工大学 (NTU),现就职于新加坡科技与设计大学 (SUTD) 信息系统技术与设计学院 (ISTD),担任助理教授。她致力于在电子商务、社交网络、基于位置的社交网络和多媒体等领域研究如何利用辅助信息(如知识图谱,社交网络)提高推荐系统的准确性、多样性、可解释性、公平性和隐私保护能力。课题组常年与国内外知名高校(新加坡南洋理工大学、荷兰代尔夫特理工大学、澳大利亚麦考瑞大学、浙江大学、上海财经大学、东北大学等)以及企业(A-STAR, Bytedance等)有合作;
2025-03-20 12:37:44
57
原创 更精细的解耦评估!VisualSimpleQA开创视觉语言大模型事实问答评测新范式
即使是先进的模型如 GPT-4o,在 VisualSimpleQA 的多模态问答中仅达到 60%+ 的正确率,在 VisualSimpleQA-hard 中仅达到 30%+ 正确率,且不同模型在基准上的表现差异明显,证明了该基准在评估多模态事实问答能力上的有效性。参考 SimpleQA 的做法,标注者构建具有无争议且简短答案的问题,以便于更客观和准确的自动评估,同时,需要涉及不同类型的主题,保证多样性,同时为每个样本提供证据,证据以官方或正规网页 url 的形式提供,在网页中我们能验证标准答案。
2025-03-20 12:37:44
393
转载 NeurIPS 2024 | 已开源!港科广团队提出Hawk:面向开放世界的视频异常理解框架
(第二行)将”两个原则 +prompt” 输入给 GPT4 来生成问题,并通过人工选出最合适的 100 个问题,将他们随机分给不同的视频,然后将上面的”描述 + 问题 + prompt” 输入给 GPT4 来生成答案。此外,本研究标注了超过 8,000 个异常视频及其语言描述,支持在多样的开放世界场景中进行有效训练,并创建了 8,000 对问答对,以帮助用户处理开放世界中的问题。,限制了 VAD 在开放世界场景中的应用,这些场景中异常行为千差万别,现有模型难以应对未见过的新型异常,并缺乏足够的自适应能力。
2025-03-19 13:55:02
22
原创 复旦、同济等联合提出基于深度强化学习的社区布局生成方法
我们将与建筑师讨论得出的定性评估方式定量化,计算 r_edges 为建筑的边界框与地块的相交边数,r_align 为建筑坐标重合的占比,r_even 为建筑距离的标准差,r_center 为所有建筑的平均中心与地块中心的重合程度。相比之下,社区建筑布局生成是在给定地块边界和建筑参数的条件下,对建筑物进行布置并生成合理的建筑布局。方法的框架如图所示。社区建筑布局任务定义为:给定一个地块边界和需要放置的建筑列表,包括各类型建筑的尺寸和需放置的数量,以及建筑的最小横纵间距,期望输出所有放置建筑的中心点坐标。
2025-03-19 13:55:02
714
原创 ICLR 2025 | 小型AI也能懂人类?中山大学全新方法ADPA让小模型对齐实现大突破!
这种设计利用了大模型对齐后的分布优势,捕捉偏好与非偏好的相对差异,作为小模型优化的指导信号。这种设计让学生模型不仅要模仿教师模型对正确答案的预测,还要理解教师模型对错误答案的判断。此外,论文中还尝试了更多的消融实验,如 DCKD 中取消教师的 DPO 训练阶段(仅使用 SFT 后的教师),或者取消反向信号(不喜欢的回答。的样本复杂度,小模型不仅能学会“什么是好的回答”,还能明白“什么是不好的”,从而大幅提升对齐效果。DCKD 利用偏好数据,从对齐好的大模型(教师模型)向未对齐的小模型(学生模型)传递知识。
2025-03-19 13:55:02
658
转载 上交大等提出MM-Eureka:R1-Zero的「Aha Moment」同样存在于多模态推理
在 instructmodel 上,我们几乎使用全部开源数据(50k),便在所有的多模态数学推理 benchmark' 上相比 instruct model 取得稳定提升,我们对比了使用 MPO,COT SFT 作为后训练的方法,我们发现简单的 rule-based RL 具备及其强大的数据高效性。总有一些你不认识的人,知道你想知道的东西。我们在复现过程中进行了许多其他的尝试,再次我们分享一些我们认为有帮助,但是并没有 work 的操作,我们认为这并不代表这些有问题,而是需要进一步地探索。
2025-03-18 12:07:18
27
原创 长视频性能提升6.6%!用文本数据撬动视频理解
大模型的成功很大程度上归功于 scaling law,即更大的训练数据量和更大的模型尺寸可以带来更好的模型性能。在训练数据样本量相同的前提下,使用 Sparrow 的数据增强方案后,一般视频理解与长视频理解的性能相较于基线(视频 caption 和指令数据 1:1 混合)显著提升。来自中国科学技术大学和南京大学等机构的学者合作提出了新的数据增强方法和视频 LLM 训练范式 Sparrow:利用长文本 QA 数据合成“视频”样本,提高视频数据集的指令多样性,从而提高视频 LLM 的微调效率。
2025-03-18 12:07:18
802
原创 NAACL 2025 | 大模型离达到真正智能有多远?深度剖析大模型流体智能水平
实验结果表明,LLM 在 Mirror 方向向右时的表现明显优于向左时,这与我们的假设一致:当 Mirror 方向向左时,由于自回归生成的特性,LLM 在生成新网格时尚未触及原有网格的信息,从而导致结果下降。因此,我们得出结论:LLM 在 ARC 和 ARAOC 任务上的流体智能缺失并非由于矩阵输入的影响,而是源于其无法有效理解抽象的输入表征。总的来说,LLM 的内部架构限制了其访问全局信息的能力,而这一能力对于展现流体智能至关重要,因此,这种限制进一步阻碍了 LLM 在流体智能方面的表现。
2025-03-18 12:07:18
520
转载 SIGIR 2025 AgentIR研讨会征稿:探索Agent驱动的信息检索新边界
信息检索(IR)技术是现代数字化生活的核心,从搜索优化到内容排序,IR系统通过与用户的动态交互,帮助人们快速获取关键信息。2025年7月17日,第二届AgentIR研讨会将在意大利帕多瓦与SIGIR 2025同期举行,聚焦Agent视角下的信息检索创新,特别关注深度强化学习(DRL)和大语言模型(LLM)的融合应用,助力IR领域迈向新高度!本次活动将邀请学术界与产业界的先锋人物,围绕DRL与LLM在IR中的前沿应用展开深入探讨,推动理论创新与实践落地,激发跨领域合作的新火花。
2025-03-17 13:31:56
34
转载 实话!写博士论文,别太老实了……
主要是多看领域内顶刊文章,模仿别人文献的框架和写作思路,找几篇文献一段一段的模仿写作各个部分!选题分析-->实验设计及验证-->创新点设计-->成稿润色-->选刊投稿-->录用发表!通过管家式的服务,让学员只专注于论文本身,最大程度上提升论文的专注度和确定性。也就这次的指导,你现在的困境,就被导师的一个思路解决,少走几个月弯路!确保你能掌握他们的经验与方法,并用在自己的项目中,直至成功发表。,为晋升加薪,评奖评优,就业竞争等加分的职场人士,科研人。导师自身的实力只是一部分,但更重要的是导师的教学能力。
2025-03-17 13:31:56
36
转载 ICLR 2025 | TUM、北大联合提出ConFIG:迈向无冲突训练的逆梯度方法
在包括 ConFIG 在内的基于梯度的方法中,总是需要额外的反向传播步骤获得每个梯度相对于训练参数的梯度。在标准的 40 任务 CelebA 训练中将动量更新次数提升到 20 时,M-ConFIG 方法的性能已经接近 ConFIG 方法,而训练时间仅为 ConFIG 方法的 56%。在相同训练时间内,M-ConFIG 方法的测试结果优于其他所有方法,甚至高于常规的 ConFIG 方法。在我们的测试中,当任务数量等于 10 时,M-ConFIG 方法在相同训练时间下的性能就已经弱于 ConFIG 方法。
2025-03-17 13:31:56
37
原创 港中大(深圳)开源Soundwave语音理解大模型,1/50训练数据媲美Qwen2-Audio!
另一方面,多模态大模型,尤其是以语音交互为核心的模型也开始崛起,技术发展迅猛,前景广阔。在实际对话中,语音交流不仅受表达内容的影响,语气、停顿等副语言特征也是重要因素,此外,环境音、说话人特征等背景因素也会对影响到意图的表达。模型,通过解耦语音大模型的模态对齐训练,针对表示空间差异和长度差异这两个核心问题分别设计出针对性的解决方案和任务数据。然而,在缺少辅助信息的情况下,压缩会导致性能下降,这表明辅助信息在补充缺失特征、确保大模型完整理解方面起到了关键作用。个样本,并提取了文本和语音的特征表示。
2025-03-17 13:31:56
468
原创 从系统1(快思考)到系统2(慢思考),300+文献总结o1/R1类推理大模型的技术路线
解决复杂问题一直是基础模型的一个目标,基础模型在解决复杂的问题缺少关键的认知机制,比如缺少对于外在环境的建模和理解以及机制机制来执行长期限的推理,这些都阻碍了模型在复杂规划和推理时的探索和利用。结构化搜索的方法将现在的各类方法建模为结构化的方式,推理状态被建模为树或者图结构中的节点,模仿人类推理过程中的结构化思维过程,搜索最高奖励的路径,并且来高效的探索现在。虽然推理大语言模型在解决复杂问题上很厉害,但它们依赖大规模架构中的长自回归推理,这带来了很大的效率问题,也都限制了推理模型在更端侧场景的应用。
2025-03-16 21:34:22
774
原创 浙大阿里联合推出HealthGPT:统一医学视觉理解生成的多模态大模型
该数据集涵盖了七种理解任务和五种生成任务,通过在多模态任务上的定量分析和验证,表明 HealthGPT 能够在数据受限的情况下统一医疗多模态能力,并在多个指标上实现与现有最先进的模型相当或更好的性能。为深入探索层次视觉感知模块,实验通过为理解任务和生成任务分配不同粒度的视觉特征,验证了层次视觉感知的必要性:为理解/生成任务指派 ViT 深层/浅层特征更能充分利用输入图片的视觉特性,从而提升整体性能。此时,词嵌入层和输出头已经经过微调,只需训练 H-LoRA 模块和视觉适配器,从而显著提高模型的任务灵活性。
2025-03-16 21:34:22
724
转载 AAAI 2025 | 武大团队提出SEAM框架:「强赋能弱监管」的弱到强泛化
本文关注于第一个问题(第二个问题也很重要,但很遗憾,本文在投稿时并没有想到特别好的提升策略,只是采用了最基础的。问题的第一篇论文,在当时对该问题的认知还比较粗浅,所以在方法设计以及论文中的表达可能有不足之处。是来自于一个特定模型的,可能有其独特的特点能启发减缓噪音的设计)。
2025-03-16 21:34:22
14
原创 AAAI 2025 | 浙大团队提出TechSinger:基于流匹配的技巧可控、多语言歌声合成
随着深度学习技术的发展,现有方法在生成自然且高质量的音频方面取得了显著进展,但鲜少能实现精准控制的歌唱技巧(如强度、混声、假声和气声等)。为进一步提升梅尔频谱质量,本文引入分类器无关引导(CFG)的流匹配后处理网络,结合标签随机丢弃策略,增强模型对标注噪声的鲁棒性。为此,本文提出 TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。消融实验证实,流匹配生成框架和 CFG 策略对提升梅尔频谱质量具有关键作用,可以提高生成歌声的质量和技巧控制力。
2025-03-15 22:16:44
611
转载 桥接学术与落地!同济、清华提出实用的金融时间序列全维度评测系统
如图,相比 ALSP-TF(IJCAI'22)、ADB-TRM(IJCAI'24)、CI-STHPAN(AAAI'24)所采用的 2013 年到 2017 年的数据,LSR-iGRU(CIKM'24)、FinMamba 所采用的 2018 年到 2023 年的数据,LARA(IJCAI'24)、RSAP-DFM(IJCAI'24)采用的 2008 年到 2020 年的数据,FinTSB 涵盖了最丰富的波动模式,全面反映了变化多端的金融市场。总有一些你不认识的人,知道你想知道的东西。
2025-03-15 22:16:44
22
转载 博士申请 | 南京大学-南洋理工招收计算机视觉方向联培博士/实习生
曾获得ICCV青年学者奖、HKSTP最佳论文奖、CVPR最佳论文提名奖、PAMI Mark Everingham奖、WAIC云帆奖、MIT TR 35岁以下亚太地区创新者、亚洲青年科学家奖、Google学术研究奖等多项荣誉,并在CVPR、ICCV、NeurIPS、ICLR等国际顶级会议担任领域主席(Area Chair),同时担任国际顶级期刊IJCV的副主编(Associate Editor)。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。最新的招聘信息也不知道?
2025-03-15 22:16:44
112
原创 单卡3090纯视觉玩MineCraft!LS-Imagine在开放世界中基于长短期想象进行强化学习
对于滑动边界框所在的每个位置,我们从原始图像开始裁剪出 16 张图像,以缩小视野来聚焦于边界框所在的区域,并调整回原始图像的大小,得到连续的 16 帧图像用于模拟智能体向边界框所示区域移动时的视觉变化。为此,我们设计了一套基于 Swin-Unet 的多模态 U-Net 架构,并通过上述的基于虚拟探索的功用性图计算方法来标注数据作为监督信号,训练该多模态 U-Net 架构,使其可以如图 3 所示在每个时间步利用视觉观察与语言指令,高效地生成功用性图。总有一些你不认识的人,知道你想知道的东西。
2025-03-15 22:16:44
610
转载 生成式AI已成科研新引擎?即刻扫码查看威立最新报告!
在世界范围内,我们助力创新者突破障碍,赋能科学发现,助力职业发展,塑造前沿思想。作为科研和学习领域值得信赖的领导者,我们提供前瞻的解决方案和服务,助力求知者应对重大全球挑战。我们倡导进步,为求知者赋能,拥抱挑战,创造机遇。该报告深入分析了人工智能在科研工作中的应用现状,颇具影响力的应用领域、各群体的使用意愿,以及出版机构如何协助科研人员更好地应用这一快速发展的技术等内容。然而,中国及全球科研人员如何关注人工智能的发展,哪些领域已率先拥抱AI,又有哪些瓶颈亟待突破?
2025-03-14 13:32:34
24
原创 All in VLM!华为诺亚推出记忆增强的VLM决策方案Mem2Ego,刷新具身导航SOTA记录
此外,论文提出了自动化数据采集方法,通过监督微调可以大幅提高 Llama3.2-11B 模型的能力,在物品导航任务上的表现超过了原始 Llama 模型和 GPT-4o。在具身导航任务中,已有的基于 LLM 的方法通常将语义地图等全局信息转换为语言描述来协助导航,但是这种基于语言描述的方法会导致环境空间信息的缺失,限制了智能体在复杂空间环境中的表现。同时从访问记忆中提取已访问位置。,通过自适应检索全局记忆模块中的任务相关线索,并将这些线索映射到智能体的第一视角图像中,从而增强智能体的环境感知和决策能力。
2025-03-14 13:32:34
733
转载 ICLR 2025 | 东方理工等提出「语境对齐」新范式,让大模型更懂时间序列
以往的微调方法往往依赖于一个词库,通过各种方式将时序数据的 token 嵌入与词库中的词汇(例如 rise、fall、periodic、short 等)的 token 嵌入进行对齐,也就是说将大语言模型陌生的时序数据嵌入转化为其熟悉的语言嵌入。具体来说,作者利用双尺度的图节点来描述语言结构的层次划分,在保证信息不丢失的前提下,将冗长的时序数据表达为一个整体,这就好像英语中的宾语从句,从句整体充当了一个语言成分,冗长的时序数据也应该被视为输入中的一个整体成分。总有一些你不认识的人,知道你想知道的东西。
2025-03-14 13:32:34
30
转载 北京内推 | 阿里通义实验室对话智能团队招聘大模型研究型实习生
其中对话智能团队,以大模型研究和应用为中心,以对话为核心交互形态,推进大模型的大规模商业化应用,主要技术包括:(1)对话大模型(2)代码大模型(3)AI Agents等;1. 在读博士生,专注于机器学习、AI、智能控制等相关领域,有信心通过技术打破多个模态之间的边界;2. 在深度学习、强化学习、多智能体等领域有深入的研究经验,能够提出简洁且有效的解决方案;聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。5. 有多模态大模型,强化学习方面的研究经验者优先。
2025-03-14 13:32:34
129
原创 北大团队提出LongRePS框架:面向长上下文场景的思维链过程监督方案
©PaperWeekly原创·作者|韦锡宇单位|北京大学计算语言所研究方向|长上下文建模研究简介当前大语言模型(LLMs)在处理长上下文任务时面临核心挑战:如何在超长输入中有效检索和聚合分散信息。思维链(Chain of Thought CoT)是一种常见的激发模型思考的技术,能够通过引导模型逐步推理来提升其在复杂任务中的表现,在这篇文章中我们对思维链在长下文任务中的作用进行探究...
2025-03-13 12:32:47
949
转载 ICDAR 2025赛事:MapText-25历史地图文字识别竞赛开启报名!
We’re excited to announce thatthe test set for the ICDAR 2025 Competition on Historical Map Text Detection, Recognition, and Linkingis now available!With just a month to go before theApril 1, 2025...
2025-03-13 12:32:47
39
转载 TPAMI 2025顶刊!基于脉冲驱动Transformer的高效且可扩展训练方法
©作者 |中科院自动化所李国齐课题组脉冲神经网络(SNN)因其生物合理性和低功耗特性,被视为人工神经网络(ANN)的潜在替代方案。然而,SNN 在实际应用中面临性能差距和训练成本高的挑战。为此我们提出了一种脉冲发放近似(SFA)方法,通过整数训练和脉冲驱动推理优化脉冲神经元的发放模式。此外,我们开发了高效的脉冲驱动 Transformer 架构和脉冲掩码自动编码器,以防止 SNN 在模型参数量扩...
2025-03-13 12:32:47
87
转载 抱上AI科研搭子的大腿后,读英文论文像读中文一样丝滑!
大模型时代,读论文这事儿真是越来越爽了~你敢信,这样式儿的论文并非中文原版,而是出自翻译软件之手的翻译版。原文长这样:不仅译文流畅,公式图表也丝毫不乱,原模原样清晰美观不说,各种图注表头该翻译也都能翻译到位。并且在大模型加持之下,有什么疑点划线引用直接就能问,再也不怕没人一起讨论最新前沿科技进展,被导师一问一个不吱声了????。都说搞科研英语必须过硬,但毕竟作为非母语者,想要如阅读中文一般快速抓住重点、...
2025-03-12 18:16:09
137
原创 上海AI Lab等提出GENOME(+)框架:单卡4090玩转10+大模型的种群进化
遗传算法、粒子群算法等作为经典的群体智能方法,自诞生以来便在优化问题领域得到广泛应用。然而,这类传统方法在大模型时代中是否仍然适用?上海人工智能实验室 OpenAGCI Team 联合东北大学数据挖掘实验室最近的研究成果重新证明了这类方法在大模型时代仍然拥有潜力。他们提出了名为GENOME(+)的大语言模型优化框架,以创新性的视角系统地将进化算法引入到大语言模型的种群优化问题中,无需梯度优化,让...
2025-03-12 18:16:09
520
转载 统一细粒度感知!北大&阿里提出UFO:MLLM无缝集成检测和分割,无需任务特定解码器...
©PaperWeekly原创·作者|汤昊单位|北京大学博士研究方向|多模态大模型研究动机长期以来,细粒度感知任务(检测,分割等)的建模方式都比视觉-语言任务复杂的多,非常依赖于任务特定的结构和设计。因此为了让多模态大语言模型(Multimodal Large Language Models,MLLMs)支持检测,分割等细粒度感知任务,之前的大多数工作都依赖于任务特定的解码器(比如...
2025-03-12 18:16:09
59
转载 中关村人工智能研究院2025年「超能实习生计划」重磅开启!
合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中关村人工智能研究院还在焦虑AI可能让你失业吗?羡慕大佬的 GitHub 高星项目吗?在海淀某栋神秘大楼中,一群实习生正在挑战在成千上万的 GPU 集群上进行「人类未来AI应用计划」。中关村地下8层某国家队的机密项目:2025年超能实习生计划限时开启!中关村人工智能研究院(Z...
2025-03-12 18:16:09
124
转载 AAAI 2025 | 北航、港城大提出POI-Enhancer:基于大模型的POI表征学习增强框架
本篇分享 AAAI 2025 论文 POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning。本文提出了一种基于大语言模型的 POI 表征学习增强框架。论文标题:POI-Enhancer: An LLM-based Semantic Enhancement Framework ...
2025-03-11 13:18:03
70
转载 博士申请 | 香港科技大学(广州)许人镜老师招收强化学习/机器人方向博士/硕士...
合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港科技大学(广州)香港科技大学是亚洲乃至全球领先的研究学府之一,并被认为是世界上发展最快的大学之一,在 2023年,位列 QS 世界大学排名第 40 位和泰晤士高等教育世界年轻大学排名第2位。2022年9月,香港科技大学启用广州校区,重点发展交叉学科,以与清水湾校区相互补足。...
2025-03-11 13:18:03
104
转载 阿里通义、港科大等提出RAG与长文本对比新框架,助力智能路由决策机制设计...
背景:RAG与长文本语言模型的权衡随着大型语言模型(LLMs)的快速发展,输入长度限制从最初的4K token到如今普遍支持的128K甚至百万级token输入,“长文本”(Long Context, LC)的定义也在发生着巨变。检索增强生成(RAG)技术曾经作为处理超长文本的关键解决方案,通过检索与问题(query)相关的文本片段来满足输入长度的限制。然而,随着模型上下文窗口的显著扩展...
2025-03-11 13:18:03
79
转载 卷上天了!ACL 2025投稿ID首次破万
2025各大顶会陆续出了DDL,有小伙伴压点提交ACL 2025的时候已经将近8500号了,照这个趋势下去加上12月的,应该能冲击12000。肝论文的各位同学们还好嘛?发过顶会的同学都知道,做科研最主要还是靠自己,一篇能被录取的论文需要正确的方向+优雅的idea+扎实的工作。以下分享一下如何单打独斗发顶会的个人建议:1.保持学术热情,多看最新的顶会paper,多观看一些学术报告,寻找合话的研究t...
2025-03-11 13:18:03
51
转载 一句话全自动创建AI智能体,港大AutoAgent打造开源最强Deep Research
香港大学近期重磅发布开源项目 AutoAgent,这是由黄超教授实验室开发的创新 AI 框架。它最大的特点是:只要用自然语言就能创建 AI 助手,让人工智能应用开发变得特别简单。项目开源仅三周就在 Github 上获得了 2.1k 星标。基于 AutoAgent 引擎,黄超团队还打造了一个超强的 AI 研究助手——Auto-Deep-Research。这个通用 AI 智能体性能目前位列全球第三,开...
2025-03-09 21:31:45
247
原创 DualPipe深入浅出:没有分布式训练基础也能看懂的DualPipe全方位讲解
©PaperWeekly 原创 · 作者 |张逸骅单位 |密歇根州立大学博士生研究方向 |可信人工智能过去的两周里,DeepSeek 在社交媒体上宣告这是他们的开源周(OpenSourceWeek),并连续五天放出了多款软件库。前段时间分别发布了 FlashMLA(高效 Hopper GPU MLA 解码核)、DeepEP(面向 MoE 的专家并行通信库)以及 DeepGEMM(支持 FP8...
2025-03-09 21:31:45
943
转载 ICLR 2025 | 清华、蚂蚁提出大模型推理新范式!将代码形式规划引入推理过程
©作者 |温佳鑫单位 |清华大学硕士生大模型应该以什么形式进行推理?自然语言是表示推理路径的最佳方案吗?2024 年 9 月,OpenAI 携 o1 模型吹响推理革命的号角,以惊人的思维链长度刷新认知边界。在这场技术革命中,中国力量迅速崛起:DeepSeek R1 以极低的训练成本成功复现 o1 性能,引发全球热议。然而,在振奋的结果背后,上述「灵魂拷问」似乎并没有得到解答。事实上,在这场推理...
2025-03-09 21:31:45
124
转载 CVPR 2025 | 零训练成本!中科大创新扩散模型概念擦除方法,先验保护较SOTA提升10倍...
©PaperWeekly 原创 · 作者 |汪远单位 |中国科学技术大学研究方向 |图像生成当前,AI 图像生成技术迅猛发展,各类图文生成模型让用户能凭借简单文字描述创作出精美的图像。然而,这也引发了诸多问题,比如有人借此剽窃艺术风格、丑化 IP 角色和名人,甚至生成不安全图像。如何以低成本且高效的方式,精准快速地从生成图像中去除这些不想要的概念,成为亟待解决的难题。这一概念擦除任务有两个关...
2025-03-08 22:33:18
64
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人