自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Paper weekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可.

  • 博客(4764)
  • 收藏
  • 关注

转载 小红书「REDstar顶尖人才计划」全球启动!

使用PaperWeekly独家内推码QBAA1LXTE6RF助你在起跑线上快人一步迅速斩获小红书OFFER▼ 点击「阅读原文」,立即投递

2024-07-19 12:37:40 11

原创 多模态安全偏好对齐数据集SPA-VL,全方位提升多模态大模型安全能力

随着人工智能技术的飞速发展,多模态模型(Large Multi-modal Models, MLLMs)凭借其在视觉与语言信息处理上的卓越能力,已经成为研究领域的热点话题。然而,技术进步的同时,这些模型的安全性问题也日益受到全球研究者的关注。近期,中国科学技术大学、复旦大学和上海人工智能实验室的联合研究团队,针对这一挑战,提出了创新性的解决方案——SPA-VL 数据集,为多模态模型的安全性研究树立...

2024-07-19 12:37:40 297

转载 快手开源大模型长序列训练加速技术,性能大幅超越SOTA方案

导读在深度学习领域,训练大型语言模型(LLMs)一直是一项极具挑战性的任务,它不仅需要巨大的计算资源,同时对内存的消耗也非常巨大。近期,快手大模型团队提出了创新的方法,包括感知流水并行的激活值卸载以及计算-内存均衡的检查点策略,旨在无损地加速大型语言模型的训练过程。目前论文入选 ATC 2024 大会,代码已开源。论文核心贡献:1. 感知流水并行的激活值卸载(Pipeline-Parallel-A...

2024-07-19 12:37:40 5

原创 联汇科技OmChat:突破长视频理解极限的多模态大模型

多模态大模型,特别是长视频理解的多模态大模型的一个主要挑战是如何高效管理和利用图像序列和视频帧的超长上下文数据。OmChat 通过多阶段的训练,使得模型支持最长达 512K 词元,表现优于所有其他开源模型。本文对 OmChat 的关键技术,以及数据集的特点进行了总结。论文标题:OmChat: A Recipe to Train Multimodal Language Models with Str...

2024-07-18 12:51:05 260

转载 英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%

©作者 |陈陈、小舟来源 |机器之心740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Transformer 架构的核心 —— 注意力层的时间复杂度和空间复杂度与输入序列长度的平方成正比。这使得扩展模型上下文窗口存在挑战。2022 年,一种快速、内存高效的注意力算法 ——FlashAttention ...

2024-07-18 12:51:05 15

转载 博士申请 | 香港大学刘希慧老师招收计算机视觉方向全奖博士/博后/实习生等...

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港大学香港大学创立于1911年,坐落于繁华的香港岛西部,是香港的首间大学,发展至今,香港大学已成为面向国际的综合性大学,2024年QS全球大学排名第17位。作为久负盛名的大学之一,香港大学在学术研究方面为学生提供了扎实的基础平台和优秀的科研环境。导师简介刘希慧博士是香港大学E...

2024-07-18 12:51:05 16

原创 ​ECCV 2024 | 提高天花板:动态视角切换下的无冲突局部特征匹配

动机首先,我们将一个特征匹配器的 ground-truth 匹配比喻为它的“天花板”,因为 ground-truth 匹配是匹配器输出结果的理论上界。目前的特征匹配方法着力于提高匹配器建模能力,以使匹配结果逼近 ground-truth 匹配。然而,许多问题从根本上影响着 ground-truth 匹配本身,单纯的提高建模能力并不能解决这些问题。本文从提高天花板的角度出发,希望通过从根本上提高匹配...

2024-07-18 12:51:05 338

转载 北京内推 | 百度​​文心一言对齐策略算法团队招聘NLP算法实习生

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!百度百度文心(ERNIE)团队致力于预训练大模型基础技术的研究和应用,在预训练大模型领域具备深厚的技术积累。文心ERNIE自2019年诞生至今,在文本、代码、多模态等领域取得多项技术突破,例如ERNIE 1.0/2.0/3.0/3.5/4.0、文心一言(ERNIE-Bot)、E...

2024-07-17 13:06:35 151

转载 ICML 2024 | 具有O(L)训练存储和O(1)推理功耗的时间可逆脉冲神经网络

©PaperWeekly 原创 ·作者 |李国齐课题组单位 |中国科学院自动化研究所研究方向 |类脑计算脉冲神经网络(Spike Neural Network,SNN)因其受大脑启发的神经元动态和基于脉冲的计算模式,被认为是一种低功耗的人工神经网络(Artifical Neural Network,ANN)替代方案。然而受限于 SNN 中的神经元的时空动态特性,SNN 的训练显存开销与运算...

2024-07-17 13:06:35 18

原创 港大联合微信推出DiffMM:扩散模型重塑多模态推荐系统的全新范式

香港大学黄超教授领导的数据智能实验室,与微信研发团队联合开发了一种基于扩散模型的全新多模态推荐系统范式 - DiffMM。这项创新性成果融合了扩散模型技术,能够有效利用多种模态数据,为用户提供个性化、精准的多媒体内容推荐服务。论文标题:DiffMM: Multi-Modal Diffusion Model for Recommendation论文链接:https://arxiv.org/abs/2...

2024-07-17 13:06:35 141

原创 对齐全量微调!这是我看过最精彩的LoRA改进

©PaperWeekly 原创 ·作者 |苏剑林单位 |科学空间研究方向 |NLP、神经网络众所周知,LoRA 是一种常见的参数高效的微调方法,我们在《梯度视角下的LoRA:简介、分析、猜测及推广》做过简单介绍。LoRA 利用低秩分解来降低微调参数量,节省微调显存,同时训练好的权重可以合并到原始权重上,推理架构不需要作出改变,是一种训练和推理都比较友好的微调方案。此外,我们在《配置不同的学...

2024-07-16 23:03:04 678

转载 博士申请 | 密歇根州立大学崔梓筠老师招收2025级深度学习方向全奖博士生

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!Michigan State University密歇根州立大学是一所公立研究型大学,成立于1855年,位于美国密歇根州东兰辛市。2024年版《美国新闻与世界报道》排名将密歇根州立大学置于最佳公立大学并列第28位,全美最佳大学并列第60位。计算机科学与工程系是工程学院最大的学术...

2024-07-16 23:03:04 39

转载 Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

©作者 |杜伟来源 |机器之心谈到大语言模型(LLM)的策略,一般来说有两种,一种是即时的 System 1(快速反应),另一种是 System 2(慢速思考)。其中 System 2 推理倾向于深思熟虑的思维,生成中间思维允许模型(或人类)进行推理和规划,以便成功完成任务或响应指令。在 System 2 推理中,需要付出努力的心理活动,尤其是在 System 1(更自动化思维)可能出错的情况...

2024-07-16 23:03:04 24

原创 ECCV 2024 | 模型逆向攻击高性能新范式,人脸隐私安全问题新思考

模型逆向(MI)攻击是一种重构目标模型训练数据的代表性隐私攻击范例,对深度学习模型和数据隐私构成了重大威胁。恶意人士可以通过该手段,窃取用户的私人信息,尤其是面部图像等敏感信息。具体来说,一旦获得目标模型和输出预测的访问权限,攻击者就可以攻击人脸识别系统,重构敏感的人脸图像。我们旨在通过探索模型逆向攻击,揭示在线模型中存在的隐私泄露问题。然而,现有的大多数 MI 方法侧重于寻找 latent co...

2024-07-16 23:03:04 486

转载 单卡A100实现百万token推理!微软提出全新加速预填充稀疏计算方法

©作者 |张倩、陈萍来源 |机器之心大型语言模型 (LLM) 已进入长上下文处理时代,其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而,由于注意力机制的二次复杂度,模型处理输入提示(即预填充阶段)并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长,从而严重影响了用户体验,这也极大地限制了长上下文 LLM 的广泛应用。举例来说(如...

2024-07-15 13:53:57 19

转载 上海内推 | ​​上海人工智能实验室招聘群体智能方向研究型实习生

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!上海人工智能实验室上海人工智能实验室(https://www.shlab.org.cn/)是我国人工智能领域的新型科研机构,是人工智能领域国家战略科技力量的重要组成部分。实验室开展战略性、前瞻性、基础性重大科学问题研究和关键核心技术攻关,凝聚和培养高水平人才,打造“突破型、引领...

2024-07-15 13:53:57 23

转载 原来文章的idea都是这么找的?这方法简直“ 杀疯了 ”!

大家是不是都感觉写学术论文真是无从下手啊!写文章之初最难的是找到一个不错的idea,这是非常重要的。这个比写作难的不止一点,如果你有idea的话写起来其实挺快的。主要是多看领域内顶刊文章,模仿别人文献的框架和写作思路,找几篇文献一段一段的模仿写作各个部分!模仿结构、论文框架、模仿数据图、模仿论文各个位置。但是科研新人,即使知道了方法,也依旧无法挖掘到好的idea。我的研一师弟,想要发一篇一区文章。...

2024-07-15 13:53:57 21

原创 ECCV 2024 | 数字人也懂惯性定律!上海AI Lab团队提出3D人体姿态序列建模

©PaperWeekly 原创 ·作者 |Yifan Zhan单位 |上海人工智能实验室、东京大学研究方向 |3D视觉、神经渲染、人体数字重建论文标题:Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence论文地址:https://arxiv.org/abs/2403.19160项目地址:...

2024-07-15 13:53:57 646

原创 WizardLM新作!ArenaLearning: 通过模拟LLM竞技场来构建大规模数据飞轮

指令数据越来越多,哪些真正应该被用来训练?每个模型各有优点,如何博采众长为己所用?PaperWeekly 今天帮大家精读 WizardLM 团队最新论文:Arena Learning,这是一种让 LLM 在模拟竞技场中相互对战,并不断提升的全新的数据飞轮训练算法。论文标题:Arena Learning: Build Data Flywheel for LLMs Post-training via ...

2024-07-14 21:43:31 496

原创 探索LLM安全漏洞新视角:植入后门的RAG会对大模型推理带来哪些风险?

©PaperWeekly 原创 ·作者 |程彭洲单位 |上海交通大学网络空间安全学院研究方向 |人工智能安全、后门攻击与防御等虽然大型语言模型在理解和生成人类语言方面非常高效,但它们的安全隐患也不容忽视,特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂,而且效果往往不持久。因此,本文通过研究这些模型更新知识时的一个关键组件-检索增强生成(RAG),来深入了解潜在的安全...

2024-07-14 21:43:31 877

转载 CVPR最佳论文候选:NeRF新突破!用启发式引导分割去除瞬态干扰物

©作者 |陈家豪单位|中山大学硕士生来源 |机器之心自被提出以来,神经辐射场(Neural Radiance Fields, NeRF)因其在新视角合成及三维重建中的出色表现而受到极大关注。虽然大量工作都在尝试改进 NeRF 的渲染质量或运行速度,但一个现实的问题很少被人提及:如果待建模场景中出现了意想不到的瞬态干扰物,我们应该如何消除它们对 NeRF 造成的影响?本文中,来自中山大学、卡...

2024-07-14 21:43:31 22

转载 与全参数微调相比,LoRA微调的性能到底如何?

大模型技术的发展和迭代2024年已经可以按天来计算了,几乎每天都有新的大模型和技术登场,从基座模型Mamba2,Jamaba,到Dora,LoftQ,GaLore等最新的微调技术;KTO,IPO,SimPO等微调技术;再到GPTQ,SmoothQuant,AWQ,GGUF等量化技术。大模型全链路的技术的迭代日新月异。您是否有感觉自己的技术能力以及学习步伐有点跟不上技术的发展?或者对这些新兴技术的理...

2024-07-12 12:46:57 18

原创 当Mamba遇上视觉压缩:首个具有选择性状态空间的视觉压缩网络

©PaperWeekly 原创 ·作者 |秦诗雨单位 |清华大学硕士生研究方向 |图像压缩摘要在多媒体领域,学习型视觉压缩是一项重要的任务。现有的方法已经探索了各种基于 CNN 和 Transformer 的网络设计,以建模内容分布并消除冗余,但在平衡效率(即率失真权衡)和效能方面仍然是一个挑战。最近,状态空间模型(SSM)因其长距离建模能力和效率而表现出潜力。受此启发,我们首次探索了 S...

2024-07-12 12:46:57 516

转载 北京内推 | ​度小满金融AI LAB招聘数字人/文生视频方向研究型实习生

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!度小满金融DXM AI-LAB致力于构建度小满金融智能引擎的核心技术,从前沿研究到实际应用,我们深耕于计算机视觉、自然语言处理、AIGC、图模型、数字人技术、机器学习以及因果推断等关键技术领域。我们已在CVPR、ECCV、ACMMM、ACL、EMNLP等国际顶级学术会议上发表文...

2024-07-12 12:46:57 26

转载 ICML 2024 | 南开大学提出反向传播全新改进策略,不降速、大幅提升显存效率

©作者 |杨雨辰单位|南开大学硕士生来源 |机器之心自从大型 Transformer 模型逐渐成为各个领域的统一架构,微调就成为了将预训练大模型应用到下游任务的重要手段。然而,由于模型的尺寸日益增大,微调所需要的显存也逐渐增加,如何高效地降低微调显存就成了一个重要的问题。此前,微调 Transformer 模型时,为了节省显存开销,通常的做法是使用梯度检查点(gradient checkp...

2024-07-12 12:46:57 30

原创 “闭门造车”之多模态思路浅谈:自回归学习与生成

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络这篇文章我们继续来闭门造车,分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈:无损》中,我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立,那么当前基于 VQ-VAE、VQ-GAN 等将图像离散化的主流思路就存在能力瓶颈,因为只需要简单计算一下信息熵就可以...

2024-07-11 22:07:24 804

转载 厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA

介绍多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流 MLLMs 在处理此类复杂任务时表现不佳,且缺乏相应...

2024-07-11 22:07:24 28

转载 博士申请 | 香港理工大学李青教授课题组招收人工智能全奖博士/博后/RA

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港理工大学香港理工大学(The Hong Kong Polytechnic University) 是一所位于中国香港的公立综合性研究型大学,坐落于香港九龙红磡湾。香港理工大学是香港地区的顶尖高校之一,并长期入选“QS世界百强大学”及“泰晤士高等教育世界百强大学”。在202...

2024-07-11 22:07:24 174

转载 ACM MM 2024 以人为中心多媒体分析研讨会,诚邀各界专家学者参与

简介以人为本的多媒体分析是多媒体理解中的一个关键领域,涵盖了包括面部识别、人体解析、姿态估计、动作检测等在内的各种挑战。随着无处不在的多媒体传感器的出现, 大规模计算基础设施的扩展,以及大规模生成式AI的出现(GPT4o, StableDiffusion,SORA)针对人类中心的大规模多模态数据分析取得了前所未有的增长,提供了对复杂人类行为的深刻见解。本次研讨会旨在汇集最前沿的研究成果,促进合作,...

2024-07-11 22:07:24 57

转载 ACL 2024 | OceanGPT(沧渊):面向海洋科学任务的大型语言模型初探

我们在去年发布了 OceanGPT(沧渊大模型)并初步探索了其在海洋科学问答、内容生成和水下具身智能能力,该工作近期被自然语言处理顶级会议 ACL 2024(CCF-A 类会议)录用为主会论文。近期我们对 OceanGPT 进行了进一步的优化和升级,并将其中的部分能力以开源形式进行了更新发布,主要能力升级包括:1. 在 OceanGPT-7b 基础上升级发布 OceanGPT-14B/2B 两个新...

2024-07-10 13:08:09 44

原创 什么是大模型所需要的知识?人大提出DPA-RAG高效对齐检索器与大模型偏好

论文标题:Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation论文链接:https://arxiv.org/pdf/2406.18676代码链接:https://github.com/dongguanting/DPA-RAG检索器与大模型存在偏好差异吗?在理想的检索增强生成(R...

2024-07-10 13:08:09 603

转载 深圳内推 | ​腾讯AI Lab招聘自然语言处理方向算法实习生

合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯AI Lab腾讯 AI Lab是腾讯的企业级 AI 实验室,于 2016 年 4 月在深圳成立,团队由 100 余位来自世界知名院校的科学家,以及 300 多位经验丰富的应用工程师组成,并与世界顶级院校与机构合作,共同打造产学研用一体的 AI 生态。借助腾讯丰富应用场景、...

2024-07-10 13:08:09 34

转载 快速“水”论文必备:82个即插即用涨点模块!

有创新点,就能顺利发paper吗?当然不是!有了创新点只是开始,模型的编码、调试才是重头戏。很多小伙伴都是改了大量的模型和代码,实验结果却没有多少提升,白白耽误投稿时间。今天就分享一些发paper必备的工具:82个即插即用缝合模块!这些模块就像积木一样,可以按照自己的想法插入到模型中,构建出自己的模型结构。而且模块都是由大牛设计,性能非常强,能大大减少我们的工作量与模型复杂程度。模块共82个:28...

2024-07-10 13:08:09 43

原创 ECCV 2024 | 利用更易广泛获取的人体掩膜,实现SOTA无监督3D姿态估计

©PaperWeekly 原创 ·作者 |杨雨辰单位 |复旦大学、上海人工智能实验室简介精确的人体 3D 姿态估计是众多领域的基础,如机器人、运动表现分析等,而获取大量的自然条件下的 3D 姿态标注极其困难。具体而言,3D 姿态真值获取通常需要搭建动作捕捉环境。该方式仍然需要耗费大量人力物力,且数据受限于动作类型和人体外貌多样性,因而使得以 3D 真值为基础的全监督姿态估计算法难以泛化到更多...

2024-07-09 13:30:56 583

转载 字节跳动筋斗云人才计划正式启动!

▼ 点击「阅读原文」,立即投递

2024-07-09 13:30:56 32

转载 xLSTM崛起!魔芯科技、中科大等新研究揭示其在医学图像分割中超越Mamba

近日,魔芯科技、浙江大学、中科大等多家科研机构的研究人员联合推出了一项突破性的医学图像分割技术——xLSTM-UNet。这一创新技术在 2D 和 3D 医学图像分割领域取得了显著成果。项目页面:http://tianrun-chen.github.io/xLSTM-Unet/论文链接:https://arxiv.org/abs/2407.01530开源代码:https://github.com/t...

2024-07-09 13:30:56 39

转载 HANDS@ECCV24 手部研讨会和挑战赛,诚邀投稿和参与竞赛

简介第八届HANDS将在ECCV24(9月30日下午,米兰)举办,包含研讨会和挑战赛。HANDS将为相关手部研究人员和从业者提供一个分享工作和讨论潜在合作的平台。过去7届HANDS也取得了极大的成功。本文档属于翻译,信息以官网为准。HANDS@ECCV24 主页:https://hands-workshop.org/手部研讨会和投稿:研讨会专注于手部相关方向,将邀请手部相关领域的专家做前沿报告...

2024-07-09 13:30:56 25

原创 充分利用视觉信息多问多答合成数据,提升多模态大模型数学推理能力

©PaperWeekly 原创 ·作者 |史文浩单位 |电子科技大学论文题目:Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models论文链接:https://arxiv.org/abs/2406.17294开源链接:https://github.com/HZQ950419/Ma...

2024-07-08 18:16:02 796

转载 ECCV 2024 | VideoMamba: 用于高效视频理解的状态空间模型

©作者 |黎昆昌单位 |上海AILab研究方向|视频行为识别介绍我们提出了一个仅基于状态空间模型 (SSM) 的高效视频理解架构 VideoMamba,并通过大量的实验证明了它具备一系列良好的特性,包括 1)Visual Domain Scalability;2)Short-term Action Sensitivity;3)Long-term Video Superiority;4)Mo...

2024-07-08 18:16:02 79

转载 核心代码仅三行!即插即用的视觉语言连接器,一键提升多模态大模型

©作者 |吴文灏单位 |悉尼大学博士生很开心和大家分享一下我们最近的工作,和清华小学弟姚欢晋在多模态大语言模型(Multimodal Large Language Model, 以下简称 MLLM)方面进行了一些探索。论文内容和标题《Dense Connector for MLLMs》一样简单,我们提出一个简单有效、即插即用的视觉语言连接器 Dense Connector(DC),简单地利用多...

2024-07-07 23:05:17 37

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除