- 博客(5442)
- 收藏
- 关注
转载 埃默里大学、UT Austin联合提出Spatial-RAG:开启空间智能问答的新时代
▲ 图3. Spatial-RAG 运行方式的示例:给定一个问题,1)稀疏空间检索:LLM 将自然语言问题解析为空间数据库的空间 SQL 查询,检索满足空间约束和稀疏空间相关性分数的空间对象。如图 2 sparse spatial retrieval(稀疏空间检索)所示,通过将输入的自然语言问题解析为空间 SQL 查询来实现这一点,该查询将在空间数据库上执行,以高效地从数据库中检索相关的空间对象。具体来说,为了识别空间相关的候选答案,研究人员提出了一种新颖的空间混合检索模块,结合了稀疏和密集检索器。
2025-03-25 13:11:13
7
原创 大模型在简单物理现象理解任务上的认知困境:联想能力将是AGI之路上的下一个关键?
为评估大型语言模型在自然语言知识掌握方面的充分性重,研究者要求大模型生成物理概念的描述,包括其核心属性和示例。随着大模型能力的迭代演进,過往评测基准的局限性逐渐显现。第二种是基于网格化抽象表示的概念理解子任务,由于网格化的表示可以有效剥离语言模型的记忆优势,因此它可以用来评估智能体对概念的高层次理解能力比如抽象和联想能力(高层次理解)。为了评估大模型能否通过现实图片识别物理概念,研究者在谷歌图片搜索中选取反映目标概念核心属性及示例的图片(共 100 张),并构建与文本任务相同的四选一选择题。
2025-03-25 13:11:13
664
转载 世界首个!性能超扩散模型256%,推理快21.8倍,Uni-3DAR用自回归统一微观与宏观的3D世界
实验结果显示,在生成任务中,Uni-3DAR 的性能大幅超过了扩散模型方法;综上,该方法充分利用了 3D 结构固有的稀疏性,通过八叉树分解、精细 token 化与二级子树压缩,不仅大幅降低了数据表示的复杂度,而且实现了从微观到宏观 3D 结构的统一表示,为后续自回归生成与理解任务提供了高效、通用的数据基础。为此,Uni-3DAR 提出了一种层次化、由粗到细的 token 化方法,实现了数据的高效压缩和统一表示,既适用于微观也适用于宏观 3D 结构建模,为后续的自回归生成与理解任务提供了坚实基础。
2025-03-25 13:11:13
13
转载 CVPR 2025高分论文!单图1秒变3D真人,全新方法IDOL解决数字人重建问题
文本提示与图像生成:利用先进的文本到图像生成模型(如 Flux),设计描述性提示语,确保在“区域、服饰、体型、年龄、性别”等维度上实现均衡采样,从而生成 10 万张高质量全身人体图像(经过人工筛选,保留 90K 张合成图像,并融合 10K 张真实图像)。多视角图像生成:基于生成的全身图像,通过训练多视角视频生成模型(MVChamp),再结合 SMPL-X 人体模板进行姿态拟合,获得 24 个均匀分布的视角图像,确保数据在 3D 一致性上的准确性。此外,由于表达方式的限制,这些方法往往难以泛化到新的姿态。
2025-03-24 20:48:39
20
转载 GPT-4.5刚出来就被攻破了?成功率破90%, MBZUAI团队出品
以下两张表格是跟之前 state-of-the-art 性能比较,具体来看,当扰动预算 ε 为 16 时,该方法在 GPT-4.5 上达到了惊人的 95% 的攻击成功率,相比当前最好的方法提高了一倍以上,而在 GPT-4o 上的成功率也同样达到 95%,较传统的攻击方法提升了近两倍。,针对当前最先进的商业视觉语言大模型的漏洞,提出了一种令人意外简单却高效的攻击基准,成功地在刚刚发布不久的 GPT-4.5,以及之前的 GPT-4o、o1 等模型上实现了超过 90% 的攻击成功率。
2025-03-24 20:48:39
20
转载 上海内推 | 上海算法创新研究院大模型中心算法团队招聘大模型算法实习生
团队成员来自普林斯顿、北京大学、上海交大等著名学府,主要从从事大模型预训练、增强相关的算法工作。团队拥有足够多的算力和研究氛围,围绕模型架构、训练、数据合成等方向进行深入的探讨。1. 有顶会的发表经验,在大模型的数据合成(增强)领域、RAG、强化学习方向有较深的积累;2. 有较强的代码能力,对常规的大模型训练框架、微调框架或强化学习框架有一定的熟悉程度;聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。3. 算力资源有保障,能够有足够的算力探索要做的事情;
2025-03-24 20:48:39
20
原创 什么样的图像才是好的图像?近200篇文献总结图像质量检测的最新进展与挑战
当图像质量在 IQA 模块中获得好的评估结果时,这可能只是由于图像符合基于 ViT 的 IQA 方法的评估偏好,而非图像本身质量高——也就是说在整个系统里,生成图像的模块在 IQA 方法给出的一次次评分中,学到的只是一种 IQA 方法的评估规律,而非图像质量本身。总之,想要提出一种所有场景都适用的 IQA 方法是不现实的,很多场景对高质量的定义完全相反:举例来说,运动模糊可以增强图像的真实感,在一些情况下可以满足人像拍摄的要求,属于高质量图像,但对用于医学诊断的图像来说,则是低质量的图像。
2025-03-24 20:48:39
452
转载 北京/杭州/上海内推 | 阿里通义实验室招聘大模型方向研究型实习生
招聘研究型实习生,面向下一代RAG技术如Deep Research相关进行基础研究,团队近几年在顶级会议ACL/EMNLP/NAACL/ICLR等发表50+篇论文,登顶多项榜单,在SemEval 22/23连续两次获得最佳论文奖,并在ACL 2023/NLPCC 2024分别获得杰出论文奖。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。目前已有百度、阿里、腾讯、字节跳动等企业发布内推岗位,扫描下方小助手的微信,pick 你心仪的岗位~5. 知识幻觉检测&优化。
2025-03-21 12:37:54
52
原创 打破自回归模型的“速度枷锁”!NYU、宾大等发布「推测解码技术」最新综述
Speculative RAG 则通过微调的专家语言模型生成完整的答案草稿,并通过聚类检索到的文档生成多样化的草稿,使用自一致性评分和自反思评分代替逐词验证,从而提高生成效率。在这一背景下,如何在保持高质量输出的同时,显著提升模型的推理速度,以满足实时应用的需求,成为了一个亟待解决的挑战。SD 通过引入草稿模型并行生成 Token,并利用目标模型进行验证,打破了传统自回归模型的序列依赖性,显著降低了推理延迟,同时保持了高质量的输出。在探索如何高效生成语言模型输出的过程中,研究者们提出了多种创新方法。
2025-03-21 12:37:54
553
转载 AAAI 2025 | 复旦等提出SMART:用于密集知识型任务的多智能体联调框架
SMART 包括:意图重建器(从各种指令中澄清知识意图)、知识检索器(访问外部知识)、事实定位器(评估检索到的知识,并从相关文档中识别事实片段)、响应生成器(忠实地利用事实,并在有事实的情况下进行引用)。如表所示,短轨迹学习和长轨迹学习可以带来巨大的性能提升,总体而言,长短轨迹学习的组合方法可产生最佳性能,凸显了协作和独特性的重要性。在该设置中,使用长轨迹子集的 60k 个样本进行长轨迹学习,训练四种不同的框架,以评估智能体缺失对框架性能的影响。因此,应在确保协同效应的同时,优化个体智能体的贡献。
2025-03-21 12:37:54
37
转载 录用率仅22%!如何看待CVPR 2025的审稿结果?
作为计算机视觉领域的顶级盛会,CVPR堪称论文界的“奥斯卡”,每一篇被录用的论文都代表着行业前沿的方向,引领着技术的发展。今年的竞争异常激烈,共收到13008份投稿,最终仅有2878篇被录用,录取率仅为22.1%。从选题辅导、文献阅读、文献翻译&润色、创新点评估、期刊推荐、AutoML全面辅助科研流程,提供专业的科研背景提升、留学申请、作业辅导、基金申请、科研立项等服务;科研0基础课程、AI入门算法基础课程、AI前沿论文带读课程。上周,CVPR 2025的论文接收结果正式公布!QS top100博士。
2025-03-20 12:37:44
47
转载 AI Agent真的安全吗?南洋理工最新综述揭秘LLM Agent安全风险与防御策略
外部可信度关注与 Agent 系统交互的外部模块的可信度。在 TrustAgent Survey 的定义中,Agent 系统是一个具有类人认知的独立实体,由具有记忆的大脑和工具形式的行为组成。通过深入研究和总结新出现的针对代理和多智能体系统的攻击、防御和评估方法,TrustAgent Survey 将可信 LLM 的概念扩展到可信 Agent 的新兴范式。:将 LLM 可信度的维度扩展到单代理和 MAS 的上下文中,具体分为安全性、隐私性、真实性、公平性和鲁棒性,并引用了所有这些维度的现有工作。
2025-03-20 12:37:44
41
转载 博士申请 | 新加坡科技设计大学孙竹老师招收推荐系统方向全奖博士/访问学生
孙竹,博士毕业于新加坡南洋理工大学 (NTU),现就职于新加坡科技与设计大学 (SUTD) 信息系统技术与设计学院 (ISTD),担任助理教授。她致力于在电子商务、社交网络、基于位置的社交网络和多媒体等领域研究如何利用辅助信息(如知识图谱,社交网络)提高推荐系统的准确性、多样性、可解释性、公平性和隐私保护能力。课题组常年与国内外知名高校(新加坡南洋理工大学、荷兰代尔夫特理工大学、澳大利亚麦考瑞大学、浙江大学、上海财经大学、东北大学等)以及企业(A-STAR, Bytedance等)有合作;
2025-03-20 12:37:44
101
原创 更精细的解耦评估!VisualSimpleQA开创视觉语言大模型事实问答评测新范式
即使是先进的模型如 GPT-4o,在 VisualSimpleQA 的多模态问答中仅达到 60%+ 的正确率,在 VisualSimpleQA-hard 中仅达到 30%+ 正确率,且不同模型在基准上的表现差异明显,证明了该基准在评估多模态事实问答能力上的有效性。参考 SimpleQA 的做法,标注者构建具有无争议且简短答案的问题,以便于更客观和准确的自动评估,同时,需要涉及不同类型的主题,保证多样性,同时为每个样本提供证据,证据以官方或正规网页 url 的形式提供,在网页中我们能验证标准答案。
2025-03-20 12:37:44
656
转载 NeurIPS 2024 | 已开源!港科广团队提出Hawk:面向开放世界的视频异常理解框架
(第二行)将”两个原则 +prompt” 输入给 GPT4 来生成问题,并通过人工选出最合适的 100 个问题,将他们随机分给不同的视频,然后将上面的”描述 + 问题 + prompt” 输入给 GPT4 来生成答案。此外,本研究标注了超过 8,000 个异常视频及其语言描述,支持在多样的开放世界场景中进行有效训练,并创建了 8,000 对问答对,以帮助用户处理开放世界中的问题。,限制了 VAD 在开放世界场景中的应用,这些场景中异常行为千差万别,现有模型难以应对未见过的新型异常,并缺乏足够的自适应能力。
2025-03-19 13:55:02
33
原创 复旦、同济等联合提出基于深度强化学习的社区布局生成方法
我们将与建筑师讨论得出的定性评估方式定量化,计算 r_edges 为建筑的边界框与地块的相交边数,r_align 为建筑坐标重合的占比,r_even 为建筑距离的标准差,r_center 为所有建筑的平均中心与地块中心的重合程度。相比之下,社区建筑布局生成是在给定地块边界和建筑参数的条件下,对建筑物进行布置并生成合理的建筑布局。方法的框架如图所示。社区建筑布局任务定义为:给定一个地块边界和需要放置的建筑列表,包括各类型建筑的尺寸和需放置的数量,以及建筑的最小横纵间距,期望输出所有放置建筑的中心点坐标。
2025-03-19 13:55:02
729
原创 ICLR 2025 | 小型AI也能懂人类?中山大学全新方法ADPA让小模型对齐实现大突破!
这种设计利用了大模型对齐后的分布优势,捕捉偏好与非偏好的相对差异,作为小模型优化的指导信号。这种设计让学生模型不仅要模仿教师模型对正确答案的预测,还要理解教师模型对错误答案的判断。此外,论文中还尝试了更多的消融实验,如 DCKD 中取消教师的 DPO 训练阶段(仅使用 SFT 后的教师),或者取消反向信号(不喜欢的回答。的样本复杂度,小模型不仅能学会“什么是好的回答”,还能明白“什么是不好的”,从而大幅提升对齐效果。DCKD 利用偏好数据,从对齐好的大模型(教师模型)向未对齐的小模型(学生模型)传递知识。
2025-03-19 13:55:02
853
转载 上交大等提出MM-Eureka:R1-Zero的「Aha Moment」同样存在于多模态推理
在 instructmodel 上,我们几乎使用全部开源数据(50k),便在所有的多模态数学推理 benchmark' 上相比 instruct model 取得稳定提升,我们对比了使用 MPO,COT SFT 作为后训练的方法,我们发现简单的 rule-based RL 具备及其强大的数据高效性。总有一些你不认识的人,知道你想知道的东西。我们在复现过程中进行了许多其他的尝试,再次我们分享一些我们认为有帮助,但是并没有 work 的操作,我们认为这并不代表这些有问题,而是需要进一步地探索。
2025-03-18 12:07:18
32
原创 长视频性能提升6.6%!用文本数据撬动视频理解
大模型的成功很大程度上归功于 scaling law,即更大的训练数据量和更大的模型尺寸可以带来更好的模型性能。在训练数据样本量相同的前提下,使用 Sparrow 的数据增强方案后,一般视频理解与长视频理解的性能相较于基线(视频 caption 和指令数据 1:1 混合)显著提升。来自中国科学技术大学和南京大学等机构的学者合作提出了新的数据增强方法和视频 LLM 训练范式 Sparrow:利用长文本 QA 数据合成“视频”样本,提高视频数据集的指令多样性,从而提高视频 LLM 的微调效率。
2025-03-18 12:07:18
808
原创 NAACL 2025 | 大模型离达到真正智能有多远?深度剖析大模型流体智能水平
实验结果表明,LLM 在 Mirror 方向向右时的表现明显优于向左时,这与我们的假设一致:当 Mirror 方向向左时,由于自回归生成的特性,LLM 在生成新网格时尚未触及原有网格的信息,从而导致结果下降。因此,我们得出结论:LLM 在 ARC 和 ARAOC 任务上的流体智能缺失并非由于矩阵输入的影响,而是源于其无法有效理解抽象的输入表征。总的来说,LLM 的内部架构限制了其访问全局信息的能力,而这一能力对于展现流体智能至关重要,因此,这种限制进一步阻碍了 LLM 在流体智能方面的表现。
2025-03-18 12:07:18
904
转载 SIGIR 2025 AgentIR研讨会征稿:探索Agent驱动的信息检索新边界
信息检索(IR)技术是现代数字化生活的核心,从搜索优化到内容排序,IR系统通过与用户的动态交互,帮助人们快速获取关键信息。2025年7月17日,第二届AgentIR研讨会将在意大利帕多瓦与SIGIR 2025同期举行,聚焦Agent视角下的信息检索创新,特别关注深度强化学习(DRL)和大语言模型(LLM)的融合应用,助力IR领域迈向新高度!本次活动将邀请学术界与产业界的先锋人物,围绕DRL与LLM在IR中的前沿应用展开深入探讨,推动理论创新与实践落地,激发跨领域合作的新火花。
2025-03-17 13:31:56
46
转载 实话!写博士论文,别太老实了……
主要是多看领域内顶刊文章,模仿别人文献的框架和写作思路,找几篇文献一段一段的模仿写作各个部分!选题分析-->实验设计及验证-->创新点设计-->成稿润色-->选刊投稿-->录用发表!通过管家式的服务,让学员只专注于论文本身,最大程度上提升论文的专注度和确定性。也就这次的指导,你现在的困境,就被导师的一个思路解决,少走几个月弯路!确保你能掌握他们的经验与方法,并用在自己的项目中,直至成功发表。,为晋升加薪,评奖评优,就业竞争等加分的职场人士,科研人。导师自身的实力只是一部分,但更重要的是导师的教学能力。
2025-03-17 13:31:56
39
转载 ICLR 2025 | TUM、北大联合提出ConFIG:迈向无冲突训练的逆梯度方法
在包括 ConFIG 在内的基于梯度的方法中,总是需要额外的反向传播步骤获得每个梯度相对于训练参数的梯度。在标准的 40 任务 CelebA 训练中将动量更新次数提升到 20 时,M-ConFIG 方法的性能已经接近 ConFIG 方法,而训练时间仅为 ConFIG 方法的 56%。在相同训练时间内,M-ConFIG 方法的测试结果优于其他所有方法,甚至高于常规的 ConFIG 方法。在我们的测试中,当任务数量等于 10 时,M-ConFIG 方法在相同训练时间下的性能就已经弱于 ConFIG 方法。
2025-03-17 13:31:56
45
原创 港中大(深圳)开源Soundwave语音理解大模型,1/50训练数据媲美Qwen2-Audio!
另一方面,多模态大模型,尤其是以语音交互为核心的模型也开始崛起,技术发展迅猛,前景广阔。在实际对话中,语音交流不仅受表达内容的影响,语气、停顿等副语言特征也是重要因素,此外,环境音、说话人特征等背景因素也会对影响到意图的表达。模型,通过解耦语音大模型的模态对齐训练,针对表示空间差异和长度差异这两个核心问题分别设计出针对性的解决方案和任务数据。然而,在缺少辅助信息的情况下,压缩会导致性能下降,这表明辅助信息在补充缺失特征、确保大模型完整理解方面起到了关键作用。个样本,并提取了文本和语音的特征表示。
2025-03-17 13:31:56
489
原创 从系统1(快思考)到系统2(慢思考),300+文献总结o1/R1类推理大模型的技术路线
解决复杂问题一直是基础模型的一个目标,基础模型在解决复杂的问题缺少关键的认知机制,比如缺少对于外在环境的建模和理解以及机制机制来执行长期限的推理,这些都阻碍了模型在复杂规划和推理时的探索和利用。结构化搜索的方法将现在的各类方法建模为结构化的方式,推理状态被建模为树或者图结构中的节点,模仿人类推理过程中的结构化思维过程,搜索最高奖励的路径,并且来高效的探索现在。虽然推理大语言模型在解决复杂问题上很厉害,但它们依赖大规模架构中的长自回归推理,这带来了很大的效率问题,也都限制了推理模型在更端侧场景的应用。
2025-03-16 21:34:22
791
原创 浙大阿里联合推出HealthGPT:统一医学视觉理解生成的多模态大模型
该数据集涵盖了七种理解任务和五种生成任务,通过在多模态任务上的定量分析和验证,表明 HealthGPT 能够在数据受限的情况下统一医疗多模态能力,并在多个指标上实现与现有最先进的模型相当或更好的性能。为深入探索层次视觉感知模块,实验通过为理解任务和生成任务分配不同粒度的视觉特征,验证了层次视觉感知的必要性:为理解/生成任务指派 ViT 深层/浅层特征更能充分利用输入图片的视觉特性,从而提升整体性能。此时,词嵌入层和输出头已经经过微调,只需训练 H-LoRA 模块和视觉适配器,从而显著提高模型的任务灵活性。
2025-03-16 21:34:22
743
转载 AAAI 2025 | 武大团队提出SEAM框架:「强赋能弱监管」的弱到强泛化
本文关注于第一个问题(第二个问题也很重要,但很遗憾,本文在投稿时并没有想到特别好的提升策略,只是采用了最基础的。问题的第一篇论文,在当时对该问题的认知还比较粗浅,所以在方法设计以及论文中的表达可能有不足之处。是来自于一个特定模型的,可能有其独特的特点能启发减缓噪音的设计)。
2025-03-16 21:34:22
27
原创 AAAI 2025 | 浙大团队提出TechSinger:基于流匹配的技巧可控、多语言歌声合成
随着深度学习技术的发展,现有方法在生成自然且高质量的音频方面取得了显著进展,但鲜少能实现精准控制的歌唱技巧(如强度、混声、假声和气声等)。为进一步提升梅尔频谱质量,本文引入分类器无关引导(CFG)的流匹配后处理网络,结合标签随机丢弃策略,增强模型对标注噪声的鲁棒性。为此,本文提出 TechSinger,一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统,克服传统方法在可控性和艺术表达上的局限。消融实验证实,流匹配生成框架和 CFG 策略对提升梅尔频谱质量具有关键作用,可以提高生成歌声的质量和技巧控制力。
2025-03-15 22:16:44
614
转载 桥接学术与落地!同济、清华提出实用的金融时间序列全维度评测系统
如图,相比 ALSP-TF(IJCAI'22)、ADB-TRM(IJCAI'24)、CI-STHPAN(AAAI'24)所采用的 2013 年到 2017 年的数据,LSR-iGRU(CIKM'24)、FinMamba 所采用的 2018 年到 2023 年的数据,LARA(IJCAI'24)、RSAP-DFM(IJCAI'24)采用的 2008 年到 2020 年的数据,FinTSB 涵盖了最丰富的波动模式,全面反映了变化多端的金融市场。总有一些你不认识的人,知道你想知道的东西。
2025-03-15 22:16:44
27
转载 博士申请 | 南京大学-南洋理工招收计算机视觉方向联培博士/实习生
曾获得ICCV青年学者奖、HKSTP最佳论文奖、CVPR最佳论文提名奖、PAMI Mark Everingham奖、WAIC云帆奖、MIT TR 35岁以下亚太地区创新者、亚洲青年科学家奖、Google学术研究奖等多项荣誉,并在CVPR、ICCV、NeurIPS、ICLR等国际顶级会议担任领域主席(Area Chair),同时担任国际顶级期刊IJCV的副主编(Associate Editor)。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。最新的招聘信息也不知道?
2025-03-15 22:16:44
175
原创 单卡3090纯视觉玩MineCraft!LS-Imagine在开放世界中基于长短期想象进行强化学习
对于滑动边界框所在的每个位置,我们从原始图像开始裁剪出 16 张图像,以缩小视野来聚焦于边界框所在的区域,并调整回原始图像的大小,得到连续的 16 帧图像用于模拟智能体向边界框所示区域移动时的视觉变化。为此,我们设计了一套基于 Swin-Unet 的多模态 U-Net 架构,并通过上述的基于虚拟探索的功用性图计算方法来标注数据作为监督信号,训练该多模态 U-Net 架构,使其可以如图 3 所示在每个时间步利用视觉观察与语言指令,高效地生成功用性图。总有一些你不认识的人,知道你想知道的东西。
2025-03-15 22:16:44
624
转载 生成式AI已成科研新引擎?即刻扫码查看威立最新报告!
在世界范围内,我们助力创新者突破障碍,赋能科学发现,助力职业发展,塑造前沿思想。作为科研和学习领域值得信赖的领导者,我们提供前瞻的解决方案和服务,助力求知者应对重大全球挑战。我们倡导进步,为求知者赋能,拥抱挑战,创造机遇。该报告深入分析了人工智能在科研工作中的应用现状,颇具影响力的应用领域、各群体的使用意愿,以及出版机构如何协助科研人员更好地应用这一快速发展的技术等内容。然而,中国及全球科研人员如何关注人工智能的发展,哪些领域已率先拥抱AI,又有哪些瓶颈亟待突破?
2025-03-14 13:32:34
27
原创 All in VLM!华为诺亚推出记忆增强的VLM决策方案Mem2Ego,刷新具身导航SOTA记录
此外,论文提出了自动化数据采集方法,通过监督微调可以大幅提高 Llama3.2-11B 模型的能力,在物品导航任务上的表现超过了原始 Llama 模型和 GPT-4o。在具身导航任务中,已有的基于 LLM 的方法通常将语义地图等全局信息转换为语言描述来协助导航,但是这种基于语言描述的方法会导致环境空间信息的缺失,限制了智能体在复杂空间环境中的表现。同时从访问记忆中提取已访问位置。,通过自适应检索全局记忆模块中的任务相关线索,并将这些线索映射到智能体的第一视角图像中,从而增强智能体的环境感知和决策能力。
2025-03-14 13:32:34
740
转载 ICLR 2025 | 东方理工等提出「语境对齐」新范式,让大模型更懂时间序列
以往的微调方法往往依赖于一个词库,通过各种方式将时序数据的 token 嵌入与词库中的词汇(例如 rise、fall、periodic、short 等)的 token 嵌入进行对齐,也就是说将大语言模型陌生的时序数据嵌入转化为其熟悉的语言嵌入。具体来说,作者利用双尺度的图节点来描述语言结构的层次划分,在保证信息不丢失的前提下,将冗长的时序数据表达为一个整体,这就好像英语中的宾语从句,从句整体充当了一个语言成分,冗长的时序数据也应该被视为输入中的一个整体成分。总有一些你不认识的人,知道你想知道的东西。
2025-03-14 13:32:34
44
转载 北京内推 | 阿里通义实验室对话智能团队招聘大模型研究型实习生
其中对话智能团队,以大模型研究和应用为中心,以对话为核心交互形态,推进大模型的大规模商业化应用,主要技术包括:(1)对话大模型(2)代码大模型(3)AI Agents等;1. 在读博士生,专注于机器学习、AI、智能控制等相关领域,有信心通过技术打破多个模态之间的边界;2. 在深度学习、强化学习、多智能体等领域有深入的研究经验,能够提出简洁且有效的解决方案;聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。5. 有多模态大模型,强化学习方面的研究经验者优先。
2025-03-14 13:32:34
191
原创 北大团队提出LongRePS框架:面向长上下文场景的思维链过程监督方案
©PaperWeekly原创·作者|韦锡宇单位|北京大学计算语言所研究方向|长上下文建模研究简介当前大语言模型(LLMs)在处理长上下文任务时面临核心挑战:如何在超长输入中有效检索和聚合分散信息。思维链(Chain of Thought CoT)是一种常见的激发模型思考的技术,能够通过引导模型逐步推理来提升其在复杂任务中的表现,在这篇文章中我们对思维链在长下文任务中的作用进行探究...
2025-03-13 12:32:47
958
转载 ICDAR 2025赛事:MapText-25历史地图文字识别竞赛开启报名!
We’re excited to announce thatthe test set for the ICDAR 2025 Competition on Historical Map Text Detection, Recognition, and Linkingis now available!With just a month to go before theApril 1, 2025...
2025-03-13 12:32:47
47
转载 TPAMI 2025顶刊!基于脉冲驱动Transformer的高效且可扩展训练方法
©作者 |中科院自动化所李国齐课题组脉冲神经网络(SNN)因其生物合理性和低功耗特性,被视为人工神经网络(ANN)的潜在替代方案。然而,SNN 在实际应用中面临性能差距和训练成本高的挑战。为此我们提出了一种脉冲发放近似(SFA)方法,通过整数训练和脉冲驱动推理优化脉冲神经元的发放模式。此外,我们开发了高效的脉冲驱动 Transformer 架构和脉冲掩码自动编码器,以防止 SNN 在模型参数量扩...
2025-03-13 12:32:47
101
转载 抱上AI科研搭子的大腿后,读英文论文像读中文一样丝滑!
大模型时代,读论文这事儿真是越来越爽了~你敢信,这样式儿的论文并非中文原版,而是出自翻译软件之手的翻译版。原文长这样:不仅译文流畅,公式图表也丝毫不乱,原模原样清晰美观不说,各种图注表头该翻译也都能翻译到位。并且在大模型加持之下,有什么疑点划线引用直接就能问,再也不怕没人一起讨论最新前沿科技进展,被导师一问一个不吱声了????。都说搞科研英语必须过硬,但毕竟作为非母语者,想要如阅读中文一般快速抓住重点、...
2025-03-12 18:16:09
141
原创 上海AI Lab等提出GENOME(+)框架:单卡4090玩转10+大模型的种群进化
遗传算法、粒子群算法等作为经典的群体智能方法,自诞生以来便在优化问题领域得到广泛应用。然而,这类传统方法在大模型时代中是否仍然适用?上海人工智能实验室 OpenAGCI Team 联合东北大学数据挖掘实验室最近的研究成果重新证明了这类方法在大模型时代仍然拥有潜力。他们提出了名为GENOME(+)的大语言模型优化框架,以创新性的视角系统地将进化算法引入到大语言模型的种群优化问题中,无需梯度优化,让...
2025-03-12 18:16:09
526
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人