通道依赖还是通道独立?清华、同济等提出时间序列依赖建模新范式TimeFilter ▲ 图1 主流依赖建模方法问题深度学习在多变量时间序列预测领域取得了显著进展。现有方法从依赖建模视角,大致可以分为通道独立(CI)和通道依赖(CD)两类。其中,通道独立方法只利用每个通道各自的历史值进行预测,相反,通道依赖方法则融合全部通道间关系。然而,我们观察到,来自不同领域的时序数据往往在潜在的分布和特征上表现出显著的差异,例如在气候相关数据中,通道间往往存在天然的物理学依赖,而在用户用电数据...
威立执行副总裁Jay Flynn接受科技日报采访:科学出版数字化转型的见证者 作者:科技日报记者 马爱平近日,威立执行副总裁、科研与学习部门总经理杰伊∙弗林(Jay Flynn)接受科技日报记者马爱平采访,他在本次采访中分享了如何见证科技出版和科学研究内容传播的变迁、威立如何探索人工智能等新技术在科学出版领域的应用,以及见证中国科学研究迅猛发展的经历。“中国的科研发展举世瞩目,如今,其作者的论文发表数量已经位列世界首位。随着科研实力的不断攀升,其在多个科技领域取得了显著成就...
AAAI 2025 | 免训练低成本!上海交大提出用于高效扩散模型的令牌剪枝方法 本篇分享 AAAI 2025 论文SiTo: Training-Free and Hardware-Friendly Acceleration for Diffusion Models via Similarity-based Token Pruning,上海交通大学提出 SiTo,通过基于相似性的令牌剪枝为扩散模型提供无需训练且硬件友好的加速。论文链接:https://www.research...
北京内推 | 格灵深瞳招聘RAG/Agent/视觉/图文预训练算法实习生 合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!格灵深瞳格灵深瞳是一家行业领先的人工智能公司,专注于将先进的计算机视觉、大数据分析、机器人和人机交互技术与应用场景深度融合,提供面向智慧金融、城市管理、智慧商业、轨交运维、体育健康、元宇宙等领域的人工智能产品及解决方案。公司成立于2013年,2022年3月在上海证券交易所科创板...
8B模型超越GPT-4o!通义实验室提出多轮对齐SDPO,让LLM更擅长多轮交互 LLM 如何在多轮任务中对齐人类偏好?通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO,让 8B 模型在多轮对话上超过 GPT-4o!SDPO 简介在 LLM 的训练过程中,如何保持 LLM 与人类的价值观对齐是一个至关重要的问题,然而当前的对齐方法在训练时都只考虑当前轮生成的回复的收益,而不会考虑当前动作后后续多轮可能动作的影响,这一问题导致大模型在多轮交互中难以考虑后续的对话策略或行动...
ICLR 2025 | 超越YOLO11!中科大团队提出D-FINE,重新定义边界框回归任务 ©作者 |彭岩松单位|中国科学技术大学博士生研究方向 |实时目标检测引言在当前内卷严重的实时目标检测(Real-time Object Detection)领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。为了打破这一瓶颈,来自中科大的研究团队提出了 D-FINE,重新定义了边界框回归任务。不同于传统的固定坐标...
博士申请 | 香港科技大学(广州)谢思泓教授招收CV/多模等方向全奖博士/博后/RA... 合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港科技大学(广州)香港科技大学是亚洲乃至全球领先的研究学府之一,并被认为是世界上发展最快的大学之一,在 2023年,位列 QS 世界大学排名第 40 位和泰晤士高等教育世界年轻大学排名第2位。2022年9月,香港科技大学启用广州校区,重点发展交叉学科,以与清水湾校区相互补足。...
360篇文献!从终生学习视角出发,华南理工团队发布全新Agent综述 ©PaperWeekly 原创 ·作者 |李秋科单位|华南理工大学研究方向 |自然语言处理整合三百多篇文献,2025 年首篇 Agent 综述正式推出!华南理工大学机器学习与数据挖掘实验室的马千里教授团队从终生学习的视角出发,汇总了基于大语言模型的智能体的创新研究成果。论文标题:Lifelong Learning of Large Language Model based Agents:...
ICLR 2025 | 自动化所、旷视等提出Ross,多模态大模型的MAE时刻来了? 「Vision-Centric Supervision」Matters in Large Multimodal Models!今天介绍我们在多模态大模型领域的一篇原创工作。目前 Ross 已被 ICLR 2025 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。论文标题:Reconstructive Visual Instruction Tuning论文链接:https://arxiv...
无需RLHF显著提升GPT-4性能,北大团队提出对齐新范式「残差修正」| NeurIPS 2024 Oral... 学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。背景当下大语言模型(LLMs)虽然展现出强大的能力,但也可能产生不可预测甚至有害的输出,例如冒犯性回应、虚假信息传播或隐私数据泄露。这些问题不仅对用户构成潜在威胁,也可能对社会产生广泛影响。因此,确保这些模型的行为与人类的意图和价值观相一致,成为一个亟需解决的重要挑战。尽管基于人类反馈的强化学习(RLHF)提供了一种解决方...
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释 ©来源|机器之心「工程师正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。」DeepSeek 开源大模型的阳谋,切切实实震撼着美国 AI 公司。最先陷入恐慌的,似乎是同样推崇开源的 Meta。最近,有 Meta 员工在美国匿名职场社区 teamblind 上面发布了一个帖子。帖子提到,国内 AI 创业公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐...
上海/北京内推 | 字节跳动豆包大模型团队招聘大模型搜索增强算法工程师/实习生... 合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!字节跳动字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平...
RAG终于“轻”起来了!港大开源MiniRAG突破大模型限制,轻量高效还免费 代码链接:https://github.com/HKUDS/MiniRAG论文链接:https://arxiv.org/abs/2501.06713实验室主页:https://github.com/HKUDS引言检索增强生成(RAG)技术在向小型语言模型(SLMs)迁移时面临重大挑战。尽管 SLMs 在计算效率和部署灵活性方面具有明显优势,但传统 RAG 架构过度依赖大语言模型的强大能力,导致在使...
轻松理解百万Token!清华等提出全新位置编码方法,突破模型长上下文能力新边界... 随着语言大模型的成功,视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速,但在长上下文场景下表现却不尽如人意,这一问题严重制约了多模态模型在实际应用中的潜力。为解决这一问题,清华大学,香港大学和上海 AI Lab 联合提出了一种新的用于多模态大模型的位置编码方法 ——Variable Vision Position Em...
阶跃多模态团队提出「慢感知」概念:迈向视觉system2 (o1) 的第一步 论文标题:Slow Perception: Let's Perceive Geometric Figures Step-by-step论文地址:https://arxiv.org/abs/2412.20631开源地址:https://github.com/Ucas-HaoranWei/Slow-Perception前言慢感知是 StepFun 多模态团队对视觉 system2 的初步探索。研究人...
国产模型如何追上多模态OpenAI o1?你需要知道的全在这 近年来,大模型技术竞争日趋白热化,OpenAI 的 GPT 系列和 Google 的 Gemini 等模型不断刷新行业标准。近日,Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5,性能追平 OpenAI 的 o1 模型正式版,并在多个推理任务上表现出色。更令人振奋的是,Kimi 团队首次公开了技术报告,详细介绍了模型的训练细节和核心技术。毕业于斯坦福大学的英伟达知名科学家 Jim ...
博士申请 | 丹麦科技大学视觉计算中心招收3D视觉和机器人方向全奖博士生 合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!丹麦科技大学丹麦技术大学(Technical University of Denmark)坐落于北欧丹麦王国哥本哈根大区,由著名物理学家奥斯特于1829年创建。丹麦技术大学是世界上最古老的科技大学之一,是丹麦培养高级工程技术人员的最主要学府。丹麦技术大学以其高水平的国际研究和广...
高效且鲁棒!华为诺亚、MILA提出全新框架PoT,全面提升大模型复杂关系推理能力... 文章背景大型语言模型(如 GPT-4)在自然语言理解和生成方面表现出色,例如对话问答、代码生成等。这种能力得益于在大量真实世界语言数据上的预训练,这使得 LLMs 可以隐式地学习实体、关系和推理模式 [1]。尽管如此,LLMs 在处理自然语言关系推理(例如亲属关系推理[2]、空间关系推理[3]等)任务时表现依然有限。该任务要求 LLMs 从输入的文本描述中整合实体间的多跳关系,并最终推导出目...
354篇参考文献!史上最详尽综述:视觉定位任务十年发展系统性回顾 27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。论文题目:Towards Visual Grounding: A Survey工作内容:视...
这样看文献,一天不得20篇?智谱亮出论文杀手锏!导师:活久见了 AI 领域发展迅速,每天都有大量新论文涌现,从大模型到多模态,从算法优化到应用落地,科研人员需要不断学习新知识并阅读论文。然而,面对海量的文献,科研人员往往难以应对,甚至陷入“读不懂、用不起”的困境。具体来说,论文中涉及的前沿概念和领域知识往往超出自己的研究范围,背景知识的缺失让人寸步难行。长难句、专业术语、复杂图表更是让人望而生畏,甚至需要反复阅读才能理解。此外,为了更高效地处理论文,许多科研...