自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1656)
  • 收藏
  • 关注

转载 2025年最好发论文的方向!

自从ChatGPT和其他大语言模型的出现,人工智能领域发生了巨大变革,尤其是视觉语言多模态大模型的研究和应用。(文末有顶会idea分享)这次我将重要的多模态大模型资料包括670篇多模态大模型论文、140份多模态和大模型报告、多模态大模型最全综述、视觉大语言模型公开课、8小时多模态前沿系列课全部免费分享出来。因篇幅有限,仅展示部分资料,扫码回复领取最全资料学习!扫码回复“多模态”前沿资料全部免费领取...

2024-07-26 14:00:38 1

转载 大模型结构的进化(一):LLaMA 3.1结构及影响解析

作者:张俊林 中科院软件所博士LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5,这算是开源届的大事,技术报告接近100页,信息很丰富,粗略看了一下,很有启发。这里就LLaMA 3的模型结构、训练过程做些解读,并对其影响、小模型如何做、合成数据等方面谈点看法。LLaMA3模型结构LLaMa3模型结构LLaMa3的模型结构如上图所示,这基本已经形成目前...

2024-07-25 11:00:58 14

转载 吴恩达团队新作!

来源:机器之心本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。论文地址:https://arxiv.org/abs/2405.09798代码地址:https://github.com/stanfordmlgroup/Many...

2024-07-22 14:24:49 15

转载 小模型已成趋势?

来源:机器之心上周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在Hugging Face上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B,并且正在逼近其他领先的开源模型,包括 Llama 3 和 Gemma。论文链接:https://a...

2024-07-22 14:24:49 15

转载 AIGC原理与实践(文末留言赠书)

随着科技的快速发展,人工智能已逐渐成为我们生活和工作的核心驱动力。在众多人工智能技术中,生成式人工智能(AIGC)独树一帜,它以强大的生成能力和对复杂任务的理解能力为特征,实现了人工智能的巨大突破。AIGC的发展历程虽然短暂,但已取得了令人瞩目的成果。它在自然语言处理、图像生成、音乐创作等领域的应用已经十分广泛,而变分自编码、生成对抗网络、注意力机制、大语言模型、扩散模型和多模态模型等新兴技术的快...

2024-07-16 19:15:07 16

转载 什么是 AI 智能体?IBM专家解读从单一模型到复合AI系统

最近IBM人工智能专家Maya Murad出了一个视频探讨人工智能代理的演变及其在人工智能系统变革中的关键作用。从单体模型到复合人工智能系统,探索人工智能代理如何与数据库和外部工具集成,以增强解决问题的能力和适应性,分享给大家,希望对各位有用从单一模型到复合AI系统单一模型的局限性为了解释这个问题,我们首先需要看看生成式AI领域的各种变化。首先,讨论从单一模型到复合AI系统的转变‍单独的模型受其训...

2024-07-16 19:15:07 23

转载 从零训练的 1B 以下小模型汇总

作者:Angry Bugs@知乎链接:https://zhuanlan.zhihu.com/p/693252663最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来,一直都想从头自己训练一个 1B 以下的模型,感觉这样才算是真的学过了。不过以手头的资源,也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料,主要是 GitHub 上的仓库和 Arxiv 上的 paper,顺便记录在这里。ht...

2024-07-15 18:29:31 15

转载 源码解读 - 微软GraphRAG框架

来源:奔跑的日月@知乎1. 引言这几天微软开源了一个新的基于知识图谱构建的检索增强生成(RAG)系统, GraphRAG, 该框架旨在利用大型语言模型(LLMs)从非结构化文本中提取结构化数据, 构建具有标签的知识图谱,以支持数据集问题生成、摘要问答等多种应用场景。GraphRAG 的一大特色是利用图机器学习算法针对数据集进行语义聚合和层次化分析,因而可以回答一些相对高层级的抽象或总结性问题, 这...

2024-07-15 18:29:31 40

转载 一站式AI视频创作平台"寻光",打造全新AI工作流!

来源:机器之心今年是 AI 视频生成爆发的元年,以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于 AI 的视频创作方式开始流行起来。但新技术也引发更多的挑战与质疑,除了大家熟知的 “开盲盒”现象,AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试,其中来自于多伦多的...

2024-07-11 13:02:36 37

转载 人工智能的尽头—“具身智能”

2024 年 7 月 4 日,一年一度的世界人工智能大会 ( WAIC ) 在上海拉开帷幕,多款具身智能机器人惊艳亮相。早在ITF Worl半导体大会上英伟达CEO黄仁勋就曾表示:AI下一个浪潮正是“具身智能”。随着LLM不断智能化,具身智能体一定是未来的大势所趋。至少未来3三年,将会涌现出一大批基于具身智能体的相关研究,这次我整合了具身智能的技术路线图(39篇论文和代码)+人形机器人企业大全+4...

2024-07-11 13:02:36 37

转载 全面剖析Mamba2/Dora/LoftQ/GaLore/KTO/IPO/SimPO/GPTQ/AWQ/GGUF等热门大模型技术

大模型技术的发展和迭代2024年已经可以按天来计算了,几乎每天都有新的大模型和技术登场,从基座模型Mamba2,Jamaba,到Dora,LoftQ,GaLore等最新的微调技术;KTO,IPO,SimPO等微调技术;再到GPTQ,SmoothQuant,AWQ,GGUF等量化技术。大模型全链路的技术的迭代日新月异。您是否有感觉自己的技术能力以及学习步伐有点跟不上技术的发展?或者对这些新兴技术的理...

2024-07-10 16:01:03 40

转载 大模型不止有RAG、参数存储,还有第3种记忆!

来源:机器之心2.4B 的Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM 配备显式记忆(一种比模型参数和 RAG 更便宜的记忆格...

2024-07-10 16:01:03 78

转载 彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

来源:机器之心从 125M 到 1.3B 的大模型,性能都有提升。难以置信,这件事终于发生了。一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer,性能也比Mamba更好。本周一,有关 Test-Time Training(TTT)的论文成为了人工智能社区热议的话题。论文链接:https://arxiv.org/abs/2407.04620该研究的作者...

2024-07-09 15:54:49 1886

转载 Mamba也对yolo出手了,模型详解!(附源码地址)

Mamba YOLO 是一种基于SSM结构的目标检测模型,它是对YOLO系列模型的一次创新尝试,旨在通过引入新的模块和结构来优化目标检测的性能。该模型特别关注全局感受野,并在处理复杂视觉任务时展示了其潜力。论文题目:Mamba YOLO: SSMs-Based YOLO For Object Detection论文链接:https://arxiv.org/abs/2406.05835github地...

2024-07-09 15:54:49 198

转载 2024世界人工智能大会,上海不见不散!

有参加这次世界人工智能大会的读者吗?有机会大家能线下见面认识一下,希望能够结识更多的业界大佬和同行!欢迎扫码进群!群满后请加微信AI-Leo8拉你进群分享收藏点赞在看...

2024-07-03 17:48:24 17

转载 告别RAG,长上下文的大语言模型无需检索增强

来源| 夕小瑶科技说作者 | Richard当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展,它们不仅能够处理更长的上下文,还展现出惊人的推理和检索能力。难道我们要告别基于LLM的检索增强生成(RAG)了吗?结果还真是这样,最近谷歌发布专门用于评估长上下文语言模型的LOFT测试基准,该测试基准评估长上下文LLM在各种实际任务中的表现,包括信息检索、问答和数据库查询等。...

2024-07-03 17:48:24 35

转载 史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

来源:机器之心DiT 都能用,生成视频无质量损失,也不需要训练。实时 AI 视频生成来了!本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。该技术名为 Pyramid Attention Broadcast (PAB)。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open...

2024-06-28 11:40:02 49

转载 LeCun谢赛宁全新多模态大模型开源:1000张A100算力训出SOTA,“不是另一个GPT-4V”...

一水 发自 凹非寺来源 |量子位QbitAI刚刚,谢赛宁&Lecun团队官宣新成果——正式推出以视觉为中心的多模态大模型Cambrian-1!模型名为“寒武纪”,谢赛宁本人激动表示:就像在寒武纪大爆发中生物发展出更好的视力一样,我们相信视力的提高不仅意味看得更远,还意味更深入地理解。一直以来,谢赛宁都在思考一个问题:人工智能是否需要感官基础来提升理解能力?从之前的项目(MMVP、V*、...

2024-06-28 11:40:02 32

转载 2024阿里巴巴全球数学竞赛决赛情况及试题公布

来源:达摩院DAMO北京时间6月22日24时,2024阿里巴巴全球数学竞赛决赛正式结束。本届决赛共有来自全球17个国家和地区的800多名选手入围。接下来将进入专家组独立阅卷阶段。阅卷包括初评、交叉复审、最终核验等流程。决赛的五个赛道将按成绩分别评出金奖1名、银奖2名、铜奖4名以及优秀奖10名。总共85人获奖选手名单将于8月公布。阿里巴巴全球数学竞赛自2018年发起,旨在通过有乐趣的竞赛激发人们对数...

2024-06-25 09:11:51 50

转载 GPT-4o、SAM、DiT、DCN、SegGPT 作者共话多模态模型前沿进展 | 2024智源大会精彩回顾...

来源:智源社区「多模态领域应该选哪些技术路线?视觉领域遵循scaling law么?如何看待“Encoder不可能三角”?未来训练多模态大模型的数据形式应该是怎样的?」2024 年 6 月 15日,智源大会第二天,GPT-4o、SAM、DiT、SegGPT、DCN 等重磅工作的作者共聚「多模态大模型」论坛,将本届智源大会的热度推向了高潮。嘉宾们介绍了多模态大模型领域最新的研究进展,分享了他们的经...

2024-06-25 09:11:51 54

转载 1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场

【导读】一年一度CVPR最佳论文放榜了!刚刚结束开幕演讲上,公布了2篇最佳论文、2篇最佳学生论文、荣誉提名等奖项。值得一提的是,今年北大上交摘得最佳论文提名桂冠,上科大夺得最佳学生论文。2024年CVPR会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为CVPR历史上规模最大、参与人数最多的一届,截止6月19日,现场参会人数已超过1.2万人。此外,近年来的论文接收数量也水涨船高,共有11...

2024-06-20 11:41:25 46

转载 Qwen2大模型微调入门实战(附完整代码)

作者:林泽毅编辑:AI生成未来链接:https://zhuanlan.zhihu.com/p/702491999Qwen2(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。以Qwen2作为基座大模型,通过指令微调的方式做高精度文本分类,是学习LLM微调的入门...

2024-06-19 15:42:06 540

转载 大模型时代的算力解决方案!

众所周知,想要跑 AI,必须要有英伟达 GPU。但是搭建一台配备足够 GPU 算力的电脑,一万起步的预算又让很多人望而却步。想要初期低成本,快速测试各种 AI 算法,租用云服务器平台的 GPU 是一个非常不错的选择。今天继续给大家推荐一个 GPU 云服务器平台:趋动云,正好赶上官方有新用户活动。大家通过我的二维码或者链接来注册,还有价值 70元的赠送算力,有效期6个月,数量有限先到先得。长按下...

2024-06-19 15:42:06 37

转载 Runway版Sora发布:高保真、超强一致性,Gen-3 Alpha震撼到网友了

来源:机器之心虽然生成的视频只有10秒左右,但在清晰度、细节、角色一致性等方面看起来可以匹敌现有一切视频生成模型。刚刚,AI视频生成初创公司Runway推出了新的视频生成基础模型Gen-3 Alpha。该模型可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。Runway表示,Gen-3 Alpha是即将推出的一系列模型中的首个。系列模型是在为大规模多模态训练而构建的新基础设施上训练...

2024-06-18 11:12:13 66

转载 重磅!多模态大模型最新综述!

当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力,也成为CVPR2024备受瞩目的热门领域之一。我整理了210篇多模态最新研究成果,140份多模态和大模型报告、多模态大模型最全综述、多模态大模型公开课、8节多模态前沿系列课!这些多模态大模型学习资料都是免费领的!希望能帮助大家获得论文创新点的启发。扫码回复“多模态”前沿资料全部免费领取这次,我邀请了沃恩智慧联合创始211高校...

2024-06-18 11:12:13 61

转载 图像生成模型王牌——Diffusion Transformers系列工作梳理

图像生成模型是目前业内研究的焦点,而目前诸如Sora等前沿生成模型,其所基于的主体架构都是Diffusion Transformers(DiT)。Diffusion Transformers(DiT)是论文Scalable Diffusion Models with Transformers(ICCV 2023)中提出的,是扩散模型和Transformer的结合,也是Sora使用的底层生成模型架构...

2024-06-17 11:22:24 369

转载 改变传统,吴恩达开源了一个机器翻译智能体项目

来源:机器之心吴恩达:拜托了大家,一起让翻译智能体变得更好。前段时间,随着 GPT-4o、Sora 的陆续问世,多模态模型在生成式方面取得的成绩无可否认,而人工智能的下一个革命性突破将从何处涌现,引起了大量学者和相关人士的关注。人工智能著名学者、斯坦福大学教授吴恩达一直非常推崇智能体。此前他曾在个人博客着重指出「AI 智能体工作流将会在今年推动人工智能取得长足进步」,AI 智能体的未来潜力愈加被看...

2024-06-14 17:50:11 50

转载 【IEEE官方列表会议】2024年第七届机器学习和自然语言处理国际会议(MLNLP 2024)...

会议简介MLNLP 2024已进入IEEE官方会议列表:https://conferences.ieee.org/conferences_events/conferences/conferencedetails/633282024年第七届机器学习和自然语言处理国际会议将于2024年10月18-20日在中国成都举行。该会议由成都大学计算机学院承办,IEEE,IEEE成都分部,以及国际计算机应用技术学...

2024-06-14 17:50:11 89

转载 中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户...

来源:新智元【导读】近来,国产AI视频模型强大生成能力震惊了国外网友。刚刚,中国首个超长时长、高性价比、端侧可用的Sora级视频模型诞生了,由国产黑马联手清华打造。与别家出发点不同之处在于,这是为了实现世界模型而创建的AI视频模型。Sora爆火之后,视频生成领域不断迎来新的进展,视频的时代正在开启!近日,在奇绩创坛路演日上,世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性...

2024-06-12 10:55:22 45

转载 终于不用为GPU算力发愁了,请低调使用!

众所周知,想要跑 AI,必须要有英伟达 GPU。但是搭建一台配备足够 GPU 算力的电脑,一万起步的预算又让很多人望而却步。想要初期低成本,快速测试各种 AI 算法,租用云服务器平台的 GPU 是一个非常不错的选择。今天继续给大家推荐一个 GPU 云服务器平台:趋动云,正好赶上官方有新用户活动。大家通过我的二维码或者链接来注册,还有价值 70元的赠送算力,有效期6个月,数量有限先到先得。长按下...

2024-06-12 10:55:22 31

转载 新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

梦晨 发自 凹非寺来源 |量子位Transformer挑战者、新架构Mamba,刚刚更新了第二代:Mamba-2,状态空间扩大8倍,训练速度提高50%!更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??‍两大主流序列建模架构,在此统一了。没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数学联系。团队通过提出一个叫结...

2024-06-04 17:33:31 64

转载 爆火ChatTTS突破开源语音天花板,一周就斩获18k+的Star

来源:机器之心编辑:陈萍、佳琪未来人与人的交流,难道是这个样?近日,一个名为 ChatTTS 文本转语音项目爆火出圈,引来大家极大的关注。短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。项目地址:https://github.com/2noise/ChatTTS/tree/main作者本人也在 x 上表示,ChatTTS 突破了开源天花板。不过,目前开源的只是底模,没有...

2024-06-04 17:33:31 67

转载 LLM的「母语」是什么?

来源:新智元【导读】在以英语为主的语料库上训练的多语言LLM,是否使用英语作为内部语言?对此,来自EPFL的研究人员针对Llama 2家族进行了一系列实验。大语言模型的「母语」是什么?我们的第一反应很可能是:英语。但事实果真如此吗?尤其是对于能够听说读写多种语言的LLM来说。对此,来自EPFL(洛桑联邦理工学院)的研究人员发表了下面这篇工作来一探究竟:论文地址:https://arxiv.org/...

2024-06-03 19:23:50 27

转载 斯坦福团队被曝抄袭清华系大模型,已删库跑路,创始人回应:也算国际认可...

金磊 西风 发自 凹非寺来源 |量子位家人们,大模型圈儿出了个惊天大瓜——斯坦福AI团队,竟然曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果——模型结构和代码,几乎一模一样!跟任何抄袭事故一样……AI圈内都惊呆了。斯坦福的这项研究叫做Llama3-V,是于5月29日新鲜发布,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus...

2024-06-03 19:23:50 62

转载 关于Scaling Law、合成数据、MOE及长文本的看法及未来

作者:张俊林,新浪微博新技术研发负责人整理:青稞A原文:https://zhuanlan.zhihu.com/p/700622253以下内容是5月15日甲子光年圆桌论坛讨论内容,涉及Scaling Law、合成数据与“半合成数据”、与Transformer不同的新模型结构、MOE及Long Context等问题。一、是否相信Scaling Law?王艺:围绕Scaling Law有很多的争议,有...

2024-06-01 13:54:59 58

转载 12位出品人集结完毕,2折购票火热进行中!现在购票100%中奖

自2021年起,稀土开发者大会已成功举办三届,始终致力于以技术的名义拓宽全球视野,并深切关怀开发者的成长与进步。如今,备受期待的第四届稀土开发者大会即将在2024年6月28日- 6月29日召开。大会的最新信息已在官网上陆续更新:https://conf.juejin.cn/xdc2024/?utm_source=wenzhang本届大会依旧以代码不止,掘金不停为核心理念,热情邀请所有热爱技术的开发...

2024-05-29 15:41:58 39

转载 YOLOv10来了!

来源:啥都会一点的研究生前言YOLOv10 由清华大学研究人员在 Ultralytics版基础上进行进一步开发,引入了一种新的实时目标检测方法,解决了以前版本 YOLO 在后处理和模型架构方面的不足。通过消除非最大抑制(NMS)和优化各种模型组件,YOLOv10 在显著降低计算开销的同时实现了最先进的性能。广泛的实验证明,YOLOv10 在多个模型尺度上实现了卓越的精度-延迟权衡Code | ht...

2024-05-29 15:41:58 73

转载 AI教母李飞飞:大模型不存在主观感觉能力,多少亿参数都不行!

来源:机器之心归根结底,大模型的方向还是走错了?「空间智能是人工智能拼图中的关键一环。」知名「AI 教母」李飞飞曾这样表示。近段时间,李飞飞开始把目光瞄准到这一领域,并为此创建了一家初创公司。她曾表示,「大自然创造了一个以空间智能为动力的观察和行动的良性循环。」她所在的斯坦福大学实验室正在尝试教计算机「如何在三维世界中行动」,例如,使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。...

2024-05-26 18:26:13 59

转载 GPT-4 Turbo首次被击败!国产大模型拿下总分第一

金磊 发自 凹非寺来源 |量子位QbitAIOpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。事情是这样的。自打SuperCLUE问世以来,成绩第一的选手基本上要么是GPT-4,要么是GPT-4 Turbo,来感受一下这个feel:(PS:共有6次成绩,分别为2023年的9月-12月和2024年的2月、4月。)△图源:SuperCLUE官方但就在最近,随...

2024-05-26 18:26:13 29

转载 李飞飞解读创业方向「空间智能」,让AI真正理解世界

来源:机器之心李飞飞创业选择的「空间智能」,完整的 TED 解读视频公布了。前段时间,路透社独家报道了知名「AI 教母」李飞飞正在创建一家初创公司,并完成了种子轮融资。在介绍这家初创公司时,一位消息人士引用了李飞飞在温哥华 TED 上的一次演讲,表示她在此次 TED 演讲中介绍了空间智能的概念。就在今天,李飞飞在 X 上放出了她在温哥华 TED 上的完整演讲视频。她在 X 上介绍称,「空间智能是人...

2024-05-21 14:30:15 46

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除