自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1669)
  • 收藏
  • 关注

转载 三万字详解!GPT-5:你需要知道的一切

作者:Alberto Romero来源:青稞这篇超长的文章(部分是评论,部分是探索)是关于 GPT-5 的。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能(如推理和代理)。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。它讲述了所有这些事情——这就是为什么它有 14,000 个字...

2024-08-19 19:17:15 28

转载 一文看懂Mamba,Transformer最强竞争者

来源:机器之心Mamba虽好,但发展尚早。深度学习架构有很多,但近些年最成功的莫过于 Transformer,其已经在多个应用领域确立了自己的主导地位。如此成功的一大关键推动力是注意力机制,这能让基于 Transformer 的模型关注与输入序列相关的部分,实现更好的上下文理解。但是,注意力机制的缺点是计算开销大,会随输入规模而二次增长,也因此就难以处理非常长的文本。好在前段时间诞生了一种颇具潜力...

2024-08-19 19:17:15 11

转载 最强大模型一夜封神!

上月,Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B,同时发布了全新升级的Llama 3.1 70B和8B模型。最近出现了一系列令人激动的开源大语言模型,伴随大模型一起爆火的,还有大模型的微调方法。然而随着模型规模和任务数量的增加,对整个Transformer模型进行微调也变得越来越昂贵。因此,很多参数高效微调方法(Parameter-Efficient Fine-Tun...

2024-08-15 08:20:46 19

转载 又一个爆火的AI项目,逼真到恐怖的Flux!硬核教程!

最近 Flux 爆火,人物写真更加逼真、细腻,这些图片你能看出来是 AI 生成的吗?甚至还能精准控制生成的文字,比如在手上和纸上写:I am not real.无论是单人还是多人,脸部打光、肌肤纹理、毛发,都很难看出破绽。而这样的逼真图片,使用 Flux 就可以轻松生成:今天手把手教学,教大家如何使用 Flux。Flux 初体验前 Stability AI 核心成员 Robin Rombach 创...

2024-08-15 08:20:46 396

转载 Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

来源:新智元【导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前Mistral已经发过Mamba架构的Code...

2024-08-13 21:17:09 28

转载 探索混合专家(MoE)模型预训练:开源项目实操

作者:Mantaverse@知乎,哥伦比亚大学MOE模型是什么相比于传统的Dense模型,MoE(Mixture of Experts)模型在结构上进行了优化,特别是在线性投影层方面。MoE模型将单一的全连接层替换成多个专家层(例如,Mixtral使用了8个专家层)。在Switch Transformer的论文中,我们了解到,每次进行token预测时,模型会从这8个专家层中选出两个用于线性推理。这...

2024-08-13 21:17:09 23

转载 大模型时代下的人工智能 | 抽奖送书

在这个大模型风起云涌的时代,技术的边界被不断拓宽,AI的力量正以前所未有的方式重塑我们的世界。01《基于Tensorflow的深度学习》《基于Tensorflow的深度学习》神经网络、计算机视觉和NLP的理论与实践作者:[美]马格努斯·埃克曼(Magnus Ekman)译者:周翊民推荐理由:一本书讲透基于Tensorflow的深度学习,利用深度神经网络的人工神经元和全连接、卷积和循环层等构建先进的...

2024-08-09 15:34:53 19

转载 分割一切,这个方向绝对可以发论文!

目标检测今年杀疯了,不管是嫦娥六号在月球上的着陆、采样封装分系统、起飞都离不开目标检测的应用,还是卫星视频中的移动目标检测技术在地球观测、军事监视、交通管理等领域的广泛应用,并且最新的YOLO-Word技术,不用预定义目标类别,可以检测任何目标!Michael老师将对目标检测的技术发展,目标检测热门研究的现有研究方法、数据集、评价指标、解决方案等,和大家探讨当下极具潜力的研究方向。免费扫描参与课程...

2024-08-09 15:34:53 20

转载 中文大模型多模态理解评测:腾讯混元荣登榜首

来源:腾讯混元8月2日,腾讯混元大模型凭借多模态理解方面的卓越表现,在中文多模态大模型SuperCLUE-V测评基准8月榜单中脱颖而出,斩获国内大模型排名第一,稳居卓越领导者象限。多模态理解,俗称“图生文”,要求模型能准确识别图像元素,理解它们的关系,并生成自然语言描述。这既考验图像识别的精确度,也体现了对场景的全面理解、对细节的深度洞察,考验模型对复杂现实世界的理解力。本次测评涵盖了国内外最具代...

2024-08-08 17:37:08 27

转载 大模型微调到底有没有技术含量?

作者:ybq 中科院大学 信号处理硕士老生常谈的一句话吧:有没有技术含量取决于这个工作你怎么做,尤其是 llm 方向,上手门槛相比传统 NLP 变得更低了。我举一些例子吧,针对大模型微调的几个重要环节,我列举的每一种做法大概率都能完成最终目标,甚至说训出来的模型效果都没什么差别。但对个人能力成长的帮助就大不相同了。数据工作做法 1 : 继承实验室或者同事的训练数据,拿到之后也不 check ...

2024-08-08 17:37:08 33

转载 清华系Sora全球上线!不用排队,重点支持二次元!

衡宇 发自 凹非寺来源 |量子位七月份的尾巴,又有国产AI视频开放给大家免费玩了!Vidu,来自清华系多模态大模型公司生数科技,清华朱军带队的那家。今天起,Vidu全面开放文/图生视频两项功能,生成成果时长可自由选择4s/8s,分辨率最高可达1080P。官方号称“实现业界最快实测推理速度”,生成一段4s视频片段只需30s。画个重点,「全面开放」的意思是,大家不用排队,注册即可获赠每月80积分(更...

2024-07-30 11:33:32 52

转载 刚刚,Meta开源「分割一切」2.0模型,视频也能分割了

来源:机器之心还记得 Meta 的「分割一切模型」吗?这个模型在去年 4 月发布,被很多人认为是颠覆传统 CV 任务的研究。时隔一年多,刚刚,Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能...

2024-07-30 11:33:32 51

转载 2025年最好发论文的方向!

自从ChatGPT和其他大语言模型的出现,人工智能领域发生了巨大变革,尤其是视觉语言多模态大模型的研究和应用。(文末有顶会idea分享)这次我将重要的多模态大模型资料包括670篇多模态大模型论文、140份多模态和大模型报告、多模态大模型最全综述、视觉大语言模型公开课、8小时多模态前沿系列课全部免费分享出来。因篇幅有限,仅展示部分资料,扫码回复领取最全资料学习!扫码回复“多模态”前沿资料全部免费领取...

2024-07-26 14:00:38 33

转载 Nature封面:AI训练AI,越训越离谱

来源:机器之心训练数据是用 GPT-4o 生成的?那质量不好说了。我们知道,大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级,后者靠积累。随着技术的不断发展,高质量数据已经逐渐成为最大的瓶颈。在很多新模型上,人们为了提升模型能力,都采用了使用 AI 生成数据来训练的方式。人们普遍认为,使用合成数据可以显著提升模型质量。不过,最新的研究认为,使用 AI 生成的数据并不是什么好办法,反而可能会...

2024-07-26 14:00:38 67

转载 大模型结构的进化(一):LLaMA 3.1结构及影响解析

作者:张俊林 中科院软件所博士LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5,这算是开源届的大事,技术报告接近100页,信息很丰富,粗略看了一下,很有启发。这里就LLaMA 3的模型结构、训练过程做些解读,并对其影响、小模型如何做、合成数据等方面谈点看法。LLaMA3模型结构LLaMa3模型结构LLaMa3的模型结构如上图所示,这基本已经形成目前...

2024-07-25 11:00:58 82

转载 吴恩达团队新作!

来源:机器之心本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。论文地址:https://arxiv.org/abs/2405.09798代码地址:https://github.com/stanfordmlgroup/Many...

2024-07-22 14:24:49 35

转载 小模型已成趋势?

来源:机器之心上周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在Hugging Face上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B,并且正在逼近其他领先的开源模型,包括 Llama 3 和 Gemma。论文链接:https://a...

2024-07-22 14:24:49 30

转载 AIGC原理与实践(文末留言赠书)

随着科技的快速发展,人工智能已逐渐成为我们生活和工作的核心驱动力。在众多人工智能技术中,生成式人工智能(AIGC)独树一帜,它以强大的生成能力和对复杂任务的理解能力为特征,实现了人工智能的巨大突破。AIGC的发展历程虽然短暂,但已取得了令人瞩目的成果。它在自然语言处理、图像生成、音乐创作等领域的应用已经十分广泛,而变分自编码、生成对抗网络、注意力机制、大语言模型、扩散模型和多模态模型等新兴技术的快...

2024-07-16 19:15:07 78

转载 什么是 AI 智能体?IBM专家解读从单一模型到复合AI系统

最近IBM人工智能专家Maya Murad出了一个视频探讨人工智能代理的演变及其在人工智能系统变革中的关键作用。从单体模型到复合人工智能系统,探索人工智能代理如何与数据库和外部工具集成,以增强解决问题的能力和适应性,分享给大家,希望对各位有用从单一模型到复合AI系统单一模型的局限性为了解释这个问题,我们首先需要看看生成式AI领域的各种变化。首先,讨论从单一模型到复合AI系统的转变‍单独的模型受其训...

2024-07-16 19:15:07 36

转载 从零训练的 1B 以下小模型汇总

作者:Angry Bugs@知乎链接:https://zhuanlan.zhihu.com/p/693252663最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来,一直都想从头自己训练一个 1B 以下的模型,感觉这样才算是真的学过了。不过以手头的资源,也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料,主要是 GitHub 上的仓库和 Arxiv 上的 paper,顺便记录在这里。ht...

2024-07-15 18:29:31 46

转载 源码解读 - 微软GraphRAG框架

来源:奔跑的日月@知乎1. 引言这几天微软开源了一个新的基于知识图谱构建的检索增强生成(RAG)系统, GraphRAG, 该框架旨在利用大型语言模型(LLMs)从非结构化文本中提取结构化数据, 构建具有标签的知识图谱,以支持数据集问题生成、摘要问答等多种应用场景。GraphRAG 的一大特色是利用图机器学习算法针对数据集进行语义聚合和层次化分析,因而可以回答一些相对高层级的抽象或总结性问题, 这...

2024-07-15 18:29:31 69

转载 一站式AI视频创作平台"寻光",打造全新AI工作流!

来源:机器之心今年是 AI 视频生成爆发的元年,以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于 AI 的视频创作方式开始流行起来。但新技术也引发更多的挑战与质疑,除了大家熟知的 “开盲盒”现象,AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试,其中来自于多伦多的...

2024-07-11 13:02:36 60

转载 人工智能的尽头—“具身智能”

2024 年 7 月 4 日,一年一度的世界人工智能大会 ( WAIC ) 在上海拉开帷幕,多款具身智能机器人惊艳亮相。早在ITF Worl半导体大会上英伟达CEO黄仁勋就曾表示:AI下一个浪潮正是“具身智能”。随着LLM不断智能化,具身智能体一定是未来的大势所趋。至少未来3三年,将会涌现出一大批基于具身智能体的相关研究,这次我整合了具身智能的技术路线图(39篇论文和代码)+人形机器人企业大全+4...

2024-07-11 13:02:36 53

转载 全面剖析Mamba2/Dora/LoftQ/GaLore/KTO/IPO/SimPO/GPTQ/AWQ/GGUF等热门大模型技术

大模型技术的发展和迭代2024年已经可以按天来计算了,几乎每天都有新的大模型和技术登场,从基座模型Mamba2,Jamaba,到Dora,LoftQ,GaLore等最新的微调技术;KTO,IPO,SimPO等微调技术;再到GPTQ,SmoothQuant,AWQ,GGUF等量化技术。大模型全链路的技术的迭代日新月异。您是否有感觉自己的技术能力以及学习步伐有点跟不上技术的发展?或者对这些新兴技术的理...

2024-07-10 16:01:03 74

转载 大模型不止有RAG、参数存储,还有第3种记忆!

来源:机器之心2.4B 的Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM 配备显式记忆(一种比模型参数和 RAG 更便宜的记忆格...

2024-07-10 16:01:03 124

转载 彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

来源:机器之心从 125M 到 1.3B 的大模型,性能都有提升。难以置信,这件事终于发生了。一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer,性能也比Mamba更好。本周一,有关 Test-Time Training(TTT)的论文成为了人工智能社区热议的话题。论文链接:https://arxiv.org/abs/2407.04620该研究的作者...

2024-07-09 15:54:49 2516

转载 Mamba也对yolo出手了,模型详解!(附源码地址)

Mamba YOLO 是一种基于SSM结构的目标检测模型,它是对YOLO系列模型的一次创新尝试,旨在通过引入新的模块和结构来优化目标检测的性能。该模型特别关注全局感受野,并在处理复杂视觉任务时展示了其潜力。论文题目:Mamba YOLO: SSMs-Based YOLO For Object Detection论文链接:https://arxiv.org/abs/2406.05835github地...

2024-07-09 15:54:49 435

转载 2024世界人工智能大会,上海不见不散!

有参加这次世界人工智能大会的读者吗?有机会大家能线下见面认识一下,希望能够结识更多的业界大佬和同行!欢迎扫码进群!群满后请加微信AI-Leo8拉你进群分享收藏点赞在看...

2024-07-03 17:48:24 27

转载 告别RAG,长上下文的大语言模型无需检索增强

来源| 夕小瑶科技说作者 | Richard当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展,它们不仅能够处理更长的上下文,还展现出惊人的推理和检索能力。难道我们要告别基于LLM的检索增强生成(RAG)了吗?结果还真是这样,最近谷歌发布专门用于评估长上下文语言模型的LOFT测试基准,该测试基准评估长上下文LLM在各种实际任务中的表现,包括信息检索、问答和数据库查询等。...

2024-07-03 17:48:24 50

转载 史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

来源:机器之心DiT 都能用,生成视频无质量损失,也不需要训练。实时 AI 视频生成来了!本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。该技术名为 Pyramid Attention Broadcast (PAB)。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open...

2024-06-28 11:40:02 63

转载 LeCun谢赛宁全新多模态大模型开源:1000张A100算力训出SOTA,“不是另一个GPT-4V”...

一水 发自 凹非寺来源 |量子位QbitAI刚刚,谢赛宁&Lecun团队官宣新成果——正式推出以视觉为中心的多模态大模型Cambrian-1!模型名为“寒武纪”,谢赛宁本人激动表示:就像在寒武纪大爆发中生物发展出更好的视力一样,我们相信视力的提高不仅意味看得更远,还意味更深入地理解。一直以来,谢赛宁都在思考一个问题:人工智能是否需要感官基础来提升理解能力?从之前的项目(MMVP、V*、...

2024-06-28 11:40:02 41

转载 2024阿里巴巴全球数学竞赛决赛情况及试题公布

来源:达摩院DAMO北京时间6月22日24时,2024阿里巴巴全球数学竞赛决赛正式结束。本届决赛共有来自全球17个国家和地区的800多名选手入围。接下来将进入专家组独立阅卷阶段。阅卷包括初评、交叉复审、最终核验等流程。决赛的五个赛道将按成绩分别评出金奖1名、银奖2名、铜奖4名以及优秀奖10名。总共85人获奖选手名单将于8月公布。阿里巴巴全球数学竞赛自2018年发起,旨在通过有乐趣的竞赛激发人们对数...

2024-06-25 09:11:51 75

转载 GPT-4o、SAM、DiT、DCN、SegGPT 作者共话多模态模型前沿进展 | 2024智源大会精彩回顾...

来源:智源社区「多模态领域应该选哪些技术路线?视觉领域遵循scaling law么?如何看待“Encoder不可能三角”?未来训练多模态大模型的数据形式应该是怎样的?」2024 年 6 月 15日,智源大会第二天,GPT-4o、SAM、DiT、SegGPT、DCN 等重磅工作的作者共聚「多模态大模型」论坛,将本届智源大会的热度推向了高潮。嘉宾们介绍了多模态大模型领域最新的研究进展,分享了他们的经...

2024-06-25 09:11:51 78

转载 1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场

【导读】一年一度CVPR最佳论文放榜了!刚刚结束开幕演讲上,公布了2篇最佳论文、2篇最佳学生论文、荣誉提名等奖项。值得一提的是,今年北大上交摘得最佳论文提名桂冠,上科大夺得最佳学生论文。2024年CVPR会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为CVPR历史上规模最大、参与人数最多的一届,截止6月19日,现场参会人数已超过1.2万人。此外,近年来的论文接收数量也水涨船高,共有11...

2024-06-20 11:41:25 65

转载 Qwen2大模型微调入门实战(附完整代码)

作者:林泽毅编辑:AI生成未来链接:https://zhuanlan.zhihu.com/p/702491999Qwen2(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。以Qwen2作为基座大模型,通过指令微调的方式做高精度文本分类,是学习LLM微调的入门...

2024-06-19 15:42:06 843

转载 大模型时代的算力解决方案!

众所周知,想要跑 AI,必须要有英伟达 GPU。但是搭建一台配备足够 GPU 算力的电脑,一万起步的预算又让很多人望而却步。想要初期低成本,快速测试各种 AI 算法,租用云服务器平台的 GPU 是一个非常不错的选择。今天继续给大家推荐一个 GPU 云服务器平台:趋动云,正好赶上官方有新用户活动。大家通过我的二维码或者链接来注册,还有价值 70元的赠送算力,有效期6个月,数量有限先到先得。长按下...

2024-06-19 15:42:06 47

转载 Runway版Sora发布:高保真、超强一致性,Gen-3 Alpha震撼到网友了

来源:机器之心虽然生成的视频只有10秒左右,但在清晰度、细节、角色一致性等方面看起来可以匹敌现有一切视频生成模型。刚刚,AI视频生成初创公司Runway推出了新的视频生成基础模型Gen-3 Alpha。该模型可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。Runway表示,Gen-3 Alpha是即将推出的一系列模型中的首个。系列模型是在为大规模多模态训练而构建的新基础设施上训练...

2024-06-18 11:12:13 94

转载 重磅!多模态大模型最新综述!

当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力,也成为CVPR2024备受瞩目的热门领域之一。我整理了210篇多模态最新研究成果,140份多模态和大模型报告、多模态大模型最全综述、多模态大模型公开课、8节多模态前沿系列课!这些多模态大模型学习资料都是免费领的!希望能帮助大家获得论文创新点的启发。扫码回复“多模态”前沿资料全部免费领取这次,我邀请了沃恩智慧联合创始211高校...

2024-06-18 11:12:13 96

转载 图像生成模型王牌——Diffusion Transformers系列工作梳理

图像生成模型是目前业内研究的焦点,而目前诸如Sora等前沿生成模型,其所基于的主体架构都是Diffusion Transformers(DiT)。Diffusion Transformers(DiT)是论文Scalable Diffusion Models with Transformers(ICCV 2023)中提出的,是扩散模型和Transformer的结合,也是Sora使用的底层生成模型架构...

2024-06-17 11:22:24 545

转载 改变传统,吴恩达开源了一个机器翻译智能体项目

来源:机器之心吴恩达:拜托了大家,一起让翻译智能体变得更好。前段时间,随着 GPT-4o、Sora 的陆续问世,多模态模型在生成式方面取得的成绩无可否认,而人工智能的下一个革命性突破将从何处涌现,引起了大量学者和相关人士的关注。人工智能著名学者、斯坦福大学教授吴恩达一直非常推崇智能体。此前他曾在个人博客着重指出「AI 智能体工作流将会在今年推动人工智能取得长足进步」,AI 智能体的未来潜力愈加被看...

2024-06-14 17:50:11 69

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除