PaperWeekly-CSDN博客

转载埃默里大学提出PolygonGNN，多边形几何形状的表征学习 | KDD 2024

背景简介1.1 使用多边形表示几何物体的优势图像作为一种直观普遍的数据类型被广泛应用于各种任务场景中。图像既可以表示自然界中物体，也可以表示建筑、机械部件等人造几何物体。然而对于几何物体来说，使用多边形表示比图像既节省空间又更加精确。多边形表示几何物体的例子：地图上的建筑物：想象在二维地图上有一座矩形房屋，当作为图像表示时，这幢房屋可能需要占用数百个像素，然而只有边框的黑线才是有用的信息。多边形表...

2024-08-15 18:05:45 56

转载 1篇Outstanding，5篇Oral！字节跳动ACL成果亮眼，一起和杰出论文奖作者聊聊

本周，学术界目光齐聚泰国曼谷，ACL 2024 即第 62 届国际计算语言学年会盛大开幕。大会汇聚世界各地的顶尖学者，共享最新的研究成果。根据官方数据，本届 ACL 大会共收到近 5000 篇论文投稿，其中 940 篇被主会录用，168 篇工作入选大会口头报告（Oral），录取率低于 3.4%，这当中，字节跳动共有 5 篇成果中选 Oral。8 月 14 日下午，在备受期待的 Paper A...

2024-08-15 18:05:45 79

转载 ECCV 2024 | 北大提出全新多模态提示学习方法，让MLLM更懂人类

©作者 |雷廷单位 |北京大学王选所只用提示词，多模态大模型就能更懂场景中的人物关系了。北京大学最新提出多模态提示学习（Conditional Multi-Modal Prompt, CMMP）方法，利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。论文题目：Exploring Conditional Multi-Modal Prompts for Zero-shot HOI De...

2024-08-15 18:05:45 69

转载从ACL 2024录用论文看混合专家模型（MoE）最新研究进展

©PaperWeekly 原创 ·作者 |杨远航单位 |哈尔滨工业大学（深圳）研究方向 |自然语言处理最近 ACL 2024 论文放榜，扫了下，SMoE（稀疏混合专家）的论文不算多，这里就仔细梳理一下，包括动机、方法、有趣的发现，方便大家不看论文也能了解的七七八八，剩下只需要感兴趣再看就好。下面是列表，顺序大抵是个人兴趣程度排序。1. DeepSeekMoE: Towards Ultima...

2024-08-14 13:07:18 205

转载为什么需要RLHF？SFT不够吗？

上月，Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B，同时发布了全新升级的Llama 3.1 70B和8B模型。最近出现了一系列令人激动的开源大语言模型，伴随大模型一起爆火的，还有大模型的微调方法。然而随着模型规模和任务数量的增加，对整个Transformer模型进行微调也变得越来越昂贵。因此，很多参数高效微调方法（Parameter-Efficient Fine-Tun...

2024-08-14 13:07:18 73

转载超越Llama 3.1！TII发布首个纯无注意力大模型，非Transformer架构站起来了

©作者 |杜伟、陈陈来源 |机器之心Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天...

2024-08-14 13:07:18 99

转载北京内推 | 腾讯机器学习平台部招聘混元大模型算法实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！腾讯腾讯机器学习平台部是公司核心的AI大模型研发团队，依托其丰厚的资源、强大的技术底蕴以及一支拥有前沿技术理念和实力的专业团队，始终在AI领域保持领先地位。在此，我们正在寻找对大模型技术充满热忱、求知欲和创新精神的实习生，以共同参与我们的大模型研发。作为我们团队的一员，你将有机...

2024-08-14 13:07:18 108

转载 ICML 2024 | 上海交大发布UP2ME，首个多用途通用时间序列分析框架

©作者 |ReThinklab单位 |上海交通大学背景近年来，针对多变量时间序列分析的深度学习模型发展迅速，并被应用于多种不同的任务，如预测、缺失补全和异常检测等。在其中，很大一部分模型需要根据所执行任务的特性进行量身定制。例如，趋势-季节分解常被用于预测模型、条件扩散模型被用于缺失补全等。尽管这些方法非常有效，但为不同任务选择合适的特定方法也是非常困难的。另外，即使在同一个任务中，当设置（例...

2024-08-13 12:31:50 101

转载缝合几个模块实现了新SOTA，这样发论文算学术不端吗？

有创新点，就能顺利发paper吗？当然不是！有了创新点只是开始，模型的编码、调试才是重头戏。很多小伙伴都是改了大量的模型和代码，实验结果却没有多少提升，白白耽误投稿时间。今天就分享一些发paper必备的工具：82个即插即用缝合模块！这些模块就像积木一样，可以按照自己的想法插入到模型中，构建出自己的模型结构。而且模块都是由大牛设计，性能非常强，能大大减少我们的工作量与模型复杂程度。模块共82个：28...

2024-08-13 12:31:50 48

转载无需人工/GPT-4V排序，针对多模态大模型的全自动多级偏好学习

©PaperWeekly 原创 ·作者 |吴文灏单位 |悉尼大学博士生研究方向 |多模态学习、视频理解前段时间分享了我们在多模态大模型（MLLM）视觉信号利用方面的思考：Dense Connector，今天想和大家分享一下我们在另一个正交维度的探索：在 MLLM 的人类反馈强化学习（RLHF）方面的思考，以下分享内容由一作小学弟张梦溪和我共同完成。论文题目：Automated Multi-...

2024-08-13 12:31:50 41

转载博士申请 | 新加坡科技设计大学段凌杰教授招收人工智能/网络优化方向全奖博士生...

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！新加坡科技设计大学新加坡科技设计大学是一所坐落于新加坡东部海岸的公立研究型大学，创校之初就与美国麻省理工学院MIT有深度合作，创校校长为MIT工学院院长的托马斯.L.马尼安提教授。此外新科大也与中国浙江大学合作，让大学成为东西方科技融会的枢纽。新加坡科技与设计大学曾被评选为全球...

2024-08-12 20:39:50 223

转载黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理...

©作者 |杜伟、大盘鸡来源 |机器之心都 2024 年，还有人不了解 Transformer 工作原理吗？快来试一试这个交互式工具吧。2017 年，谷歌在论文《Attention is all you need》中提出了 Transformer，成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万，后来的 GPT 家族所有模型也都是基于 Transformer 架构，可见其影响之广。...

2024-08-12 20:39:50 50

转载腾讯发布Project xDiT！打造DiT并行推理的vLLM

©PaperWeekly 原创 ·作者 |方佳瑞单位 |腾讯研究方向 |机器学习系统上半年，我们见证了国内视频生成领域的迅猛发展。四月份，生数科技的 ViDu [1] 成功生成了 16 秒的电影级视频，不仅在视频号上引发了热烈反响，更揭开了中国 Sora 们崭露头角的序幕。而到了六月份，快手可灵 [2]的发布，以其逼真的老铁风格，让人一时间真假难辨，更难能可贵的是它面向公众开放使用，使得...

2024-08-12 20:39:50 225

原创同济、NUS等提出GalleryGPT，巧妙运用大模型收集绘画图像-艺术分析文本数据

©PaperWeekly 原创 ·作者 |宾燚单位 |同济大学、NUS研究方向 |视觉与语言动机和背景现有的多模态大模型大多聚焦于视觉信息（图像/视频）理解，特别是日常视觉内容理解。然而，作为人类社会发展和精神生活的重要组成部分，艺术作品（如绘画）分析被视为人类创造力的特有表现，智能分析还鲜有研究。本工作以此为切入点，探究了当前多模态大模型，如 GPT-4V 以及 Gemini，在艺术绘画...

2024-08-12 20:39:50 839

原创重温状态空间模型SSM：HiPPO的高效计算（S4）

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络前面我们用两篇文章《重温SSM：线性系统和HiPPO矩阵》和《重温SSM：HiPPO的一些遗留问题》介绍了 HiPPO 的思想和推导——通过正交函数基对持续更新的函数进行实时逼近，其拟合系数的动力学正好可以表示为一个线性 ODE 系统，并且对于特定的基底以及逼近方式，我们可以将线性系统的关键矩阵精确...

2024-08-11 22:15:43 456

转载单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强压缩工具包来了

©作者 |模型工具链团队来源 |量子位 QbitAI单卡搞定 Llama 3.1（405B），最新大模型压缩工具来了！最近 Llama-3.1 登上开源顶峰，但其最强的 405B 版本模型 900 多 GB 的内存需求，对资源构成了更加苛刻的挑战。北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准 LLMC，能很好解决这一问题。它使得一张 80G A100 即可完成 Llama 3....

2024-08-11 22:15:43 100

转载杭州内推 | VIVO影像算法研究部招聘AIGC+计算摄影算法工程师/实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！VIVOVIVO影像算法研究部是公司的核心算法部门，负责VIVO中高端旗舰手机的核心影像算法的研发，包括手机拍照的全套ISP流程、后处理优化等，聚焦于对照片的影调、色彩和画质等关键属性的全方位提升，和高通联发科等芯片厂商合作订制算法专属芯片。团队成员皆来源于国内外知名高校和企业...

2024-08-11 22:15:43 748

原创 ACM MM 2024 | 突破传统方法局限！用语义正确性评估视觉问答生成结果

©PaperWeekly 原创 ·作者 |季慧山单位 |中科院信工所博士生研究方向 |计算机视觉第 32 届 ACM 国际多媒体会议（ACM Multimedia 2024）预计于 10 月 28 日至 11 月 1 日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿，其中 1149 篇被录用，录用率为 26.20%。而在这 1149 篇录用的投稿中，仅有 174 篇被进一步评选...

2024-08-11 22:15:43 478

转载可解释性终极追问，什么才是第一性解释？20篇CCF-A+ICLR论文给你答案

©作者 |张俊鹏、任启涵等单位 |上海交通大学来源 |机器之心本文首先简单回顾了『等效交互可解释性理论体系』（20 篇 CCF-A 及 ICLR 论文），并在此基础上，严格推导并预测出神经网络在训练过程中其概念表征及其泛化性的动力学变化，即在某种程度上，我们可以解释在训练过程中神经网络在任意时间点的泛化性及其内在根因。前言长期以来，我们团队一直在思考可解释性领域的一个终极问题，即什么才是解释...

2024-08-09 23:09:25 49

原创浙大、蚂蚁等提出TokenPacker，多模态大模型中的高质量视觉token压缩方法

©PaperWeekly 原创 ·作者 |李文通单位 |浙江大学研究方向 |多模态、场景理解引言最近，多模态大模型（Multimodal LLM, MLLM）/（Large Multimodal Model, LMM）的研究更新速度令人目不暇接，开源模型逐渐朝着逼近与 GPT-4V/o 等闭源模型的性能前进。本工作针对多模态大模型中一个重要的模块-视觉映射器（Visual Projecto...

2024-08-09 23:09:25 496

原创 KDD 2024 | 中南大学等提出PeFAD，参数高效的联邦异常检测框架

©PaperWeekly 原创 ·作者 |徐榕桧单位 |中南大学研究方向 |时序数据分析、时序大模型摘要随着移动感知技术的普及，各个领域产生和积累了大量的时间序列数据，为众多实际应用提供了动力。在这种背景下，时间序列异常检测具有重要的实际意义。它旨在从时间序列中识别出偏离正常样本分布的异常样本。现有的方法通常假设所有时间序列数据都集中在一个中央位置。然而，由于各种边缘设备的部署，越来越多的...

2024-08-09 23:09:25 406

转载北京内推 | 微软亚洲研究院媒体计算团队招聘安全AI方向研究型实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！微软亚洲研究院微软亚洲研究院媒体计算（MC）团队专注于多媒体研究，包括计算机视觉、音频、媒体压缩以及基于AI的实时通信优化等领域。他们主要从事场景理解、视觉识别和视觉媒体操作的工作，解决诸如2D/3D场景解析、3D重建、对象检测、视频分割和增强等问题。他们的工作既支持学术卓越，...

2024-08-08 12:47:30 61

转载仅8B，全面超越GPT-4V！单图、多图、视频理解端侧三冠王！史上最强端侧多模态诞生...

再次刷新端侧多模态天花板，面壁「小钢炮」MiniCPM-V 2.6 模型重磅上新！仅 8B 参数，单图、多图、视频理解全面超越 GPT-4V！更有多项功能首次上「端」：小钢炮一口气将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型，更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界，更能充分发挥端侧 AI 传感器富集、贴近用户的优势。➤ MiniCPM-V 2.6 ...

2024-08-08 12:47:30 145

转载 ICML 2024 | 自动化所提出SpikeLM，首个完全脉冲驱动的通用语言建模方案

论文标题：SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms论文地址：https://arxiv.org/pdf/2406.03287代码地址：https://github.com/Xingrun-Xing/SpikeLM背景脉冲神经网络（Spiking Neural N...

2024-08-08 12:47:30 48

转载理想汽车开源DreamCar！在moving-froward场景中的3D汽车重建

摘要自驾行业通常雇用专业艺术家来制作精美的 3D 汽车模型。然而，制作大规模的数字资产成本高昂。由于已经有许多包含大量汽车图像的数据集，我们专注于从这些数据集中重建高质量的 3D 汽车模型。然而，这些数据集只包含前行场景中汽车的一侧图像。我们尝试使用现有的生成模型提供更多的监督信息，但由于这些模型是在合成数据集上训练的，而不是专门针对汽车的数据集，因此难以在汽车上泛化。此外，在处理野外图像时，由于...

2024-08-08 12:47:30 127

转载字节联合复旦推出LayTextLLM！交错融合布局信息，文档理解能力再创新SOTA

©PaperWeekly 原创 ·作者 |余海洋单位 |复旦大学博士生研究方向 |大语言模型引言在文档理解任务中，目前的主流方案普遍使用端到端的多模态大语言模型。但是，此类方法对图片的输入分辨率有很高的要求，因此需要较强的视觉基座。这也成为了多模态大语言模型（MLLM）在文档理解任务中的瓶颈。文档理解作为 text-rich 的任务，实际发挥作用的信息大部分都来自于文字语义及其相对的布局信...

2024-08-07 12:49:35 58

转载倒计时2天！第二届城市科学大会即将开幕，嘉宾阵容及日程全揭晓

????现在，在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧···

2024-08-07 12:49:35 30

转载神笔马良版Sora！阿里提出全新DiT视频生成模型，实现精准轨迹控制

背景视频生成模型最近取得了显著进展。例如，OpenAI 的 Sora 和国内的 Vidu、可灵等模型，通过利用 Diffusion Transformer 的扩展特性，不仅能够满足各种分辨率、尺寸和时长的预测要求，同时生成的视频更符合物理世界的表现。视频生成技术需要在一系列图像中创造一致的运动，这凸显了运动控制的重要性。当前已有一些优秀的方法如 DragNUWA 和 MotionCtrl 已经实现...

2024-08-07 12:49:35 68

转载投稿ID突破两万！NeurIPS'24审稿分数新鲜出炉

7月31日，NeurIPS'24正式出分，从大家分享的分数来看，均分5分及以下占比较多，4-5分区间将近一半。对于低分区审稿人给的意见，大部分是缺乏novelty。一个research要满足创新性和性能两个方面都好，是属于高分研究。一般情况二者有其一优秀就能accept。而现状是很多投稿创新不够，再加上故事线、实验不突出，会十分危险...为了帮助大家掌握顶会选题技巧，找到一个好的idea，提升论文...

2024-08-07 12:49:35 212

转载文末送书 | AI for Science新书重磅发布！人工智能驱动科学创新

在古希腊神话中，工匠之神赫菲斯托斯曾打造出拥有人类意识与智能的黄金机器人，这可以被视为人工智能（AI）最早的思想起源之一。此后，人工智能的影子便无数次出现在人们对未来的幻想之中，但也仅停留在幻想之中——幻想与现实之间的鸿沟，需要科学的力量来填补。20世纪中叶，人工智能真正作为一个学科被创立。科学用逻辑、计算、数学、编码，将人们千百年来的幻想塑造成现实。科学孕育了人工智能，让它进入极速发展时代，走入...

2024-08-06 21:45:12 55

转载博士申请 | 美国凯斯西储大学韩霄天老师招收LLM/GNN等方向全奖博士生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！凯斯西储大学凯斯西储大学（Case Western Reserve University），世界著名高等学府，俄亥俄州第一学府，简称CWRU，是一所以独立研究著称的世界顶级私立研究型大学，位于美国俄亥俄州克里夫兰。凯斯西储大学是美国一级国家级大学，同时也是美国大学协会的62所顶...

2024-08-06 21:45:12 162

原创通向最优分布之路：概率空间的最小化

©PaperWeekly 原创 ·作者 |苏剑林单位 |科学空间研究方向 |NLP、神经网络当要求函数的最小值时，我们通常会先求导函数然后寻找其零点，比较幸运的情况下，这些零点之一正好是原函数的最小值点。如果是向量函数，则将导数改为梯度并求其零点。当梯度零点不易求得时，我们可以使用梯度下降来逐渐逼近最小值点。以上这些都是无约束优化的基础结果，相信不少读者都有所了解。然而，本文的主题是概率空...

2024-08-06 21:45:12 778

转载 KDD 2024 | 通用的多源空间点数据预测：以PM2.5预测为例

背景简介随着数字化世界的发展，空间数据已经成为人们认识世界并与其交互的关键要素。空间数据的主要特征是具有 2D/3D 空间坐标和与之关联的属性。空间预测（spatial predidction）利用空间数据来预测某一地点或区域的事件或某一具体属性，在环境监测、自然资源管理、交通规划等领域有着重要应用。空间数据可以大致细分为矢量数据（vector）与栅格数据（raster）：矢量数据包含点,线，面（...

2024-08-06 21:45:12 47

原创上交、清华联合发布rLLM，业界首个关系表格大模型算法库

©PaperWeekly 原创 ·作者 |Jianwu Zheng单位 |上海交通大学研究方向 |数据管理与人工智能以 ChatGPT 为代表的大语言模型（LLM）正引发新一轮人工智能技术发展浪潮，并受到全球的广泛关注。LLM 不光具有出色的文本理解与生成能力，还能领悟丰富的物理世界知识，从而有效解决各类复杂任务。因此，LLM 常常被认为是迈向通用人工智能的基础。然而，LLM 面对现实世界...

2024-08-05 13:45:18 760

转载没算法没实验，这篇论文凭借纯理论入选ICML 2024 Spotlight

©作者 |蔡永强来源 |量子位没有算法没有实验，从 2610 篇收录论文中脱颖而出，成为唯一一篇纯理论入选 2024 ICML Spotlight 的论文。“Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions（词的万能逼近：从语言角度看映射组合）”，这篇纯理论论文讲了...

2024-08-05 13:45:18 55

转载科研实习 | 大湾区大学杨斯崑老师招收机器学习等方向博后/RA/实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！大湾区大学大湾区大学是由广东省人民政府举办、东莞市政府投入保障为主的公立大学。学校位于广东省东莞市松山湖（临近华为欧洲小镇）。筹建负责人为田刚院士，教学负责人为李晓明教授。在办学定位方面，以理工科为主，突出人才培养模式创新，致力于培养适应未来快速变化、支撑和引领大湾区科创发展的...

2024-08-05 13:45:18 84

转载 ICML 2024爆火演讲！Meta等揭秘大模型内心世界：不同于人类的2级推理

©来源 |机器之心大语言模型 (LLM) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会对通用智能的发展产生帮助？LLM 为什么会犯推理错误？多大多深的 LLM 才能做推理？论文标题：Physics of Language Models: Part 2.1, Grade-School ...

2024-08-04 21:37:14 66

转载上交、斯坦福等联合推出SpatialBot，大模型走向空间智能、具身智能之路

论文标题：SpatialBot: Precise Depth Understanding with Vision Language Models论文链接：https://arxiv.org/abs/2406.13642项目主页：https://github.com/BAAI-DCAI/SpatialBotRGB+Depth 可以作为多模态大模型（MLLM/VLM）理解空间的途径，但是：1. 现有模...

2024-08-04 21:37:14 68

转载如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

©PaperWeekly 原创 ·作者 |古纾旸单位 |微软亚洲研究院研究员研究方向 |视觉生成当今视觉生成问题非常火热，文生图，文生视频等方向取得了很好的进展。然而视觉生成中仍然有非常重要的一些问题亟需解决，本文将对这些问题进行梳理。生成模型的目标是拟合目标数据分布，然而，目标数据分布往往过于复杂，难以直接拟合。因此，往往需要将复杂的信号做拆分，拆分成多个简单的分布拟合问题，再分别求解。...

2024-08-04 21:37:14 38

转载北京/上海内推 | Liblib AI招聘文生图多模态算法工程师/研究员/实习生等

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！Liblib AIAI图像生成平台“Liblib AI哩布哩布AI”成立于2023年5月，是国内最早诞生的一批AI图像生成平台。目前，Liblib AI已经积累了近1000万的专业AI图像创作者、超过10万个原创模型，生产并分享超过2.3亿张AI图片。Liblib AI在至今的...

2024-08-04 21:37:14 95

空空如也

空空如也