自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1684)
  • 收藏
  • 关注

转载 OpenAI o1的价值意义及强化学习的Scaling Law

来源:机器之心作者:新浪新技术研发负责人张俊林蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。一、OpenAI o1 是大模型的巨大进步我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT 4o 这种方...

2024-09-19 10:12:24 1

转载 华人团队数学证明:推理token够多,就能解决任意问题!

克雷西 发自 凹非寺来源 |量子位OpenAI用o1开启推理算力Scaling Law,能走多远?数学证明来了:没有上限。斯隆奖得主马腾宇以及Google Brain推理团队创建者Denny Zhou联手证明,只要思维链足够长,Transformer就可以解决任何问题!通过数学方法,他们证明了Transformer有能力模拟任意多项式大小的数字电路,论文已入选ICLR 2024。用网友的话来说,...

2024-09-19 10:12:24 1

转载 大模型二次开发基本思路

作者:StormBlafe@知乎开发方法分类1、领域知识注入:Continue PreTraining(增量预训练),一般垂直大模型是基于通用大模型进行二次的开发,需要用领域内的语料进行继续预训练。2、知识召回(激发):SFT( Supervised Finetuning,有监督微调), 通过SFT可以激发大模型理解领域内的各种问题并进行回答的能力。3、基础偏好对齐:奖励模型(RM)、强化学习(R...

2024-09-13 11:20:27 100

转载 刚刚,苹果首款AI手机发布!

来源:新智元【导读】刚刚结束的科技春晚上,iPhone 16系列惊艳亮相。全新的AI功能,把私人体验拉满到极致。专门打造的A18和A18 Pro芯片,将在新机中首发搭载。就在刚刚,苹果真正意义上第一款原生AI手机,终于在千呼万唤中亮相了。以全新的Apple Intelligence为中心,苹果为iPhone16系列打造了一整套AI能力。让果粉喜大普奔的好消息是——中文版的Apple Intel...

2024-09-10 09:46:23 283

转载 80w起!零成本快速入门大模型指南

今年招聘市场确实是好点了,我发现群友都在讨论,得赶快学点 AI 大模型。他们有的是想正式转到一些新兴的 AI 行业,需要系统的学习训练。更多的是想跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。这也可以理解,ChatGPT 推出仅一年半的时间,就将生成式 AI 推向主流。从谷歌到亚马逊,从百度到阿里,几乎所有科技巨头都在布局 AI,也直接影响到了招聘市场,大模型相关的岗位数量...

2024-09-10 09:46:23 39

转载 一个火爆的国产AI项目,已开源!

来源:Jack Cui好家伙,国内大模型发展太猛了!旗舰端侧模型面壁「小刚炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能,强得不像端侧模型。并且,量化后仅 2GB 内存,手机端都能跑!这还是一款瑞士军刀般全面开挂的基座模型,一口气带来:无限长文本,榜单性能超越 Kimi,超长文本也不崩;性能比肩 GPT-4o 的端侧最强 Fun...

2024-09-07 18:19:51 195

转载 Qwen2-VL:让我们先把视觉理解干上去!(一)

作者:林俊旸(阿里巴巴 多模态&NLP)编辑:AI椰青正值前几天发布Qwen2-VL,大家应该在我们的博客或者各个公众号看到我们模型的表现,并且看到我们开源了Qwen2-VL-7B和Qwen2-VL-2B以及推出了Qwen2-VL-72B的API。如果你还没看过,请点击下面几个链接:Blog:https://qwenlm.github.io/blog/qwen2-vl/GitHub:htt...

2024-09-07 18:19:51 120

转载 豆瓣9.6,这本书为啥这么受欢迎?(新书赠送)

文末赠书Part.1当一本书的内容足够好,它就会拥有多个语言版本在这个信息全球化的时代,一本书籍的卓越内容往往能够跨越语言的界限,触及世界各地读者的心灵。今天,我们庆祝:《生成式AI入门与AWS实战》中文版、西班牙语版、日语版完成翻译并成功上市!本书不仅以其深刻的见解和实用的指导赢得了英语读者的青睐,更通过多语言版本的推出,向世界证明了它的价值和影响力。作者之一Chris Fregly在推特上分享...

2024-09-06 14:20:47 61

转载 用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了

来源:机器之心向大模型输入「Michael Jordan plays the sport of _____(迈克尔・乔丹从事的体育运动是……)」,然后让其预测接下来的文本,那么大模型多半能正确预测接下来是「basketball(篮球)」。这说明在其数以亿计的参数中潜藏了有关这个特定个人的相关知识。用户甚至会感觉这些模型记忆了大量事实。但事实究竟如何呢?近日,3Blue1Brown 的《深度学习》课...

2024-09-05 11:42:46 92

转载 阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话

克雷西 发自 凹非寺来源 |量子位新的最强开源多模态大模型来了!阿里Qwen2大模型家族新添多模态模型Qwen2-VL,在图像和长视频理解任务上双双取得了SOTA。在具体的子类任务中,Qwen2-VL在大部分的指标上都达到了最优,甚至超过 GPT-4o等闭源模型。在多模态能力的加持下,Qwen2-VL可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。甚至还能作为Agent与环境进行交互,根据...

2024-09-05 11:42:46 210

转载 为啥大模型需要量化??如何量化

本文翻译整理自:https://pub.towardsai.net/want-to-learn-quantization-in-the-large-language-model-57f062d2ec17简单介绍下大模型的为什么需要量化,以及量化的基本操作。首先,了解量化的是什么以及为什么需要它。接下来,深入学习如何进行量化,并通过一些简单的数学推导来理解。最后编写一些PyTorch 代码,以对 L...

2024-09-03 19:17:23 43

转载 大模型变小的秘密,如何软硬件齐抓!(文末赠书)

各大厂家在卷「小」模型的道路上越走越远,根本停不下来!前有OpenAI的GPT-4o炸场,后有Meta的Llama 3.1突袭,本月初谷歌也官宣了更轻量级的「Gemma 2 2B」版本……各大厂家之所以拼命地在卷「小」模型,实在是因为在实际应用中大模型面临着诸多限制。随着模型规模的不断膨胀,计算复杂度和资源消耗成为制约其广泛应用的瓶颈。一方面,高昂的计算成本使得模型的训练和部署变得极为昂贵,对于...

2024-08-27 17:10:43 44

转载 爆了!多模态杀疯了!

OpenAI再进化!全新GPT-4o mini发布,多模态AI更强大,在5月中旬,OpenAI向世界揭开了GPT-4o的神秘面纱,这个全能的多模态巨人站在了GPT-4的肩膀上,将人工智能的边界推向了新的高度!不难看出,AI大模型已是大势所趋!掌握大模型、多模态、LangChain、Fine-tuning技术的程序员、势必是未来更抢手、更具竞争力的AI技术人才!为了让大家更好的抓紧大模型机遇,特邀本...

2024-08-27 17:10:43 48

转载 语言图像模型大一统,多模态AI王者登场!

来源:新智元【导读】就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了!Transformer和Diffusion,终于有了一次出色的融合。自此,语言模型和图像生成大一统的时代,也就不远了!这背后,正是Meta最近发布的Transfu...

2024-08-26 11:22:24 45

转载 大模型是泡沫吗?

这篇文章不谈技术,只聊聊这两年从事 llm 工作的一些感悟。我个人对 llm 是一种很复杂的态度。毕竟,它真的击碎了我 2023 年之前所有的技术积累,以前在 nlp 苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧,好像在 ChatGPT 面前显得一文不值。不过,事情都有两面性。与我的技术一起被击碎的,还有我那一潭死水的工作内容。我不再是特征工程师 —— “花了几个月的时间,就只为了构造...

2024-08-26 11:22:24 47

转载 三万字详解!GPT-5:你需要知道的一切

作者:Alberto Romero来源:青稞这篇超长的文章(部分是评论,部分是探索)是关于 GPT-5 的。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能(如推理和代理)。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。它讲述了所有这些事情——这就是为什么它有 14,000 个字...

2024-08-19 19:17:15 78

转载 一文看懂Mamba,Transformer最强竞争者

来源:机器之心Mamba虽好,但发展尚早。深度学习架构有很多,但近些年最成功的莫过于 Transformer,其已经在多个应用领域确立了自己的主导地位。如此成功的一大关键推动力是注意力机制,这能让基于 Transformer 的模型关注与输入序列相关的部分,实现更好的上下文理解。但是,注意力机制的缺点是计算开销大,会随输入规模而二次增长,也因此就难以处理非常长的文本。好在前段时间诞生了一种颇具潜力...

2024-08-19 19:17:15 125

转载 最强大模型一夜封神!

上月,Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B,同时发布了全新升级的Llama 3.1 70B和8B模型。最近出现了一系列令人激动的开源大语言模型,伴随大模型一起爆火的,还有大模型的微调方法。然而随着模型规模和任务数量的增加,对整个Transformer模型进行微调也变得越来越昂贵。因此,很多参数高效微调方法(Parameter-Efficient Fine-Tun...

2024-08-15 08:20:46 34

转载 又一个爆火的AI项目,逼真到恐怖的Flux!硬核教程!

最近 Flux 爆火,人物写真更加逼真、细腻,这些图片你能看出来是 AI 生成的吗?甚至还能精准控制生成的文字,比如在手上和纸上写:I am not real.无论是单人还是多人,脸部打光、肌肤纹理、毛发,都很难看出破绽。而这样的逼真图片,使用 Flux 就可以轻松生成:今天手把手教学,教大家如何使用 Flux。Flux 初体验前 Stability AI 核心成员 Robin Rombach 创...

2024-08-15 08:20:46 1585

转载 Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

来源:新智元【导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前Mistral已经发过Mamba架构的Code...

2024-08-13 21:17:09 59

转载 探索混合专家(MoE)模型预训练:开源项目实操

作者:Mantaverse@知乎,哥伦比亚大学MOE模型是什么相比于传统的Dense模型,MoE(Mixture of Experts)模型在结构上进行了优化,特别是在线性投影层方面。MoE模型将单一的全连接层替换成多个专家层(例如,Mixtral使用了8个专家层)。在Switch Transformer的论文中,我们了解到,每次进行token预测时,模型会从这8个专家层中选出两个用于线性推理。这...

2024-08-13 21:17:09 49

转载 大模型时代下的人工智能 | 抽奖送书

在这个大模型风起云涌的时代,技术的边界被不断拓宽,AI的力量正以前所未有的方式重塑我们的世界。01《基于Tensorflow的深度学习》《基于Tensorflow的深度学习》神经网络、计算机视觉和NLP的理论与实践作者:[美]马格努斯·埃克曼(Magnus Ekman)译者:周翊民推荐理由:一本书讲透基于Tensorflow的深度学习,利用深度神经网络的人工神经元和全连接、卷积和循环层等构建先进的...

2024-08-09 15:34:53 33

转载 分割一切,这个方向绝对可以发论文!

目标检测今年杀疯了,不管是嫦娥六号在月球上的着陆、采样封装分系统、起飞都离不开目标检测的应用,还是卫星视频中的移动目标检测技术在地球观测、军事监视、交通管理等领域的广泛应用,并且最新的YOLO-Word技术,不用预定义目标类别,可以检测任何目标!Michael老师将对目标检测的技术发展,目标检测热门研究的现有研究方法、数据集、评价指标、解决方案等,和大家探讨当下极具潜力的研究方向。免费扫描参与课程...

2024-08-09 15:34:53 31

转载 中文大模型多模态理解评测:腾讯混元荣登榜首

来源:腾讯混元8月2日,腾讯混元大模型凭借多模态理解方面的卓越表现,在中文多模态大模型SuperCLUE-V测评基准8月榜单中脱颖而出,斩获国内大模型排名第一,稳居卓越领导者象限。多模态理解,俗称“图生文”,要求模型能准确识别图像元素,理解它们的关系,并生成自然语言描述。这既考验图像识别的精确度,也体现了对场景的全面理解、对细节的深度洞察,考验模型对复杂现实世界的理解力。本次测评涵盖了国内外最具代...

2024-08-08 17:37:08 45

转载 大模型微调到底有没有技术含量?

作者:ybq 中科院大学 信号处理硕士老生常谈的一句话吧:有没有技术含量取决于这个工作你怎么做,尤其是 llm 方向,上手门槛相比传统 NLP 变得更低了。我举一些例子吧,针对大模型微调的几个重要环节,我列举的每一种做法大概率都能完成最终目标,甚至说训出来的模型效果都没什么差别。但对个人能力成长的帮助就大不相同了。数据工作做法 1 : 继承实验室或者同事的训练数据,拿到之后也不 check ...

2024-08-08 17:37:08 54

转载 清华系Sora全球上线!不用排队,重点支持二次元!

衡宇 发自 凹非寺来源 |量子位七月份的尾巴,又有国产AI视频开放给大家免费玩了!Vidu,来自清华系多模态大模型公司生数科技,清华朱军带队的那家。今天起,Vidu全面开放文/图生视频两项功能,生成成果时长可自由选择4s/8s,分辨率最高可达1080P。官方号称“实现业界最快实测推理速度”,生成一段4s视频片段只需30s。画个重点,「全面开放」的意思是,大家不用排队,注册即可获赠每月80积分(更...

2024-07-30 11:33:32 64

转载 刚刚,Meta开源「分割一切」2.0模型,视频也能分割了

来源:机器之心还记得 Meta 的「分割一切模型」吗?这个模型在去年 4 月发布,被很多人认为是颠覆传统 CV 任务的研究。时隔一年多,刚刚,Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能...

2024-07-30 11:33:32 70

转载 2025年最好发论文的方向!

自从ChatGPT和其他大语言模型的出现,人工智能领域发生了巨大变革,尤其是视觉语言多模态大模型的研究和应用。(文末有顶会idea分享)这次我将重要的多模态大模型资料包括670篇多模态大模型论文、140份多模态和大模型报告、多模态大模型最全综述、视觉大语言模型公开课、8小时多模态前沿系列课全部免费分享出来。因篇幅有限,仅展示部分资料,扫码回复领取最全资料学习!扫码回复“多模态”前沿资料全部免费领取...

2024-07-26 14:00:38 43

转载 Nature封面:AI训练AI,越训越离谱

来源:机器之心训练数据是用 GPT-4o 生成的?那质量不好说了。我们知道,大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级,后者靠积累。随着技术的不断发展,高质量数据已经逐渐成为最大的瓶颈。在很多新模型上,人们为了提升模型能力,都采用了使用 AI 生成数据来训练的方式。人们普遍认为,使用合成数据可以显著提升模型质量。不过,最新的研究认为,使用 AI 生成的数据并不是什么好办法,反而可能会...

2024-07-26 14:00:38 79

转载 大模型结构的进化(一):LLaMA 3.1结构及影响解析

作者:张俊林 中科院软件所博士LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5,这算是开源届的大事,技术报告接近100页,信息很丰富,粗略看了一下,很有启发。这里就LLaMA 3的模型结构、训练过程做些解读,并对其影响、小模型如何做、合成数据等方面谈点看法。LLaMA3模型结构LLaMa3模型结构LLaMa3的模型结构如上图所示,这基本已经形成目前...

2024-07-25 11:00:58 126

转载 吴恩达团队新作!

来源:机器之心本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。论文地址:https://arxiv.org/abs/2405.09798代码地址:https://github.com/stanfordmlgroup/Many...

2024-07-22 14:24:49 48

转载 小模型已成趋势?

来源:机器之心上周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在Hugging Face上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B,并且正在逼近其他领先的开源模型,包括 Llama 3 和 Gemma。论文链接:https://a...

2024-07-22 14:24:49 35

转载 AIGC原理与实践(文末留言赠书)

随着科技的快速发展,人工智能已逐渐成为我们生活和工作的核心驱动力。在众多人工智能技术中,生成式人工智能(AIGC)独树一帜,它以强大的生成能力和对复杂任务的理解能力为特征,实现了人工智能的巨大突破。AIGC的发展历程虽然短暂,但已取得了令人瞩目的成果。它在自然语言处理、图像生成、音乐创作等领域的应用已经十分广泛,而变分自编码、生成对抗网络、注意力机制、大语言模型、扩散模型和多模态模型等新兴技术的快...

2024-07-16 19:15:07 91

转载 什么是 AI 智能体?IBM专家解读从单一模型到复合AI系统

最近IBM人工智能专家Maya Murad出了一个视频探讨人工智能代理的演变及其在人工智能系统变革中的关键作用。从单体模型到复合人工智能系统,探索人工智能代理如何与数据库和外部工具集成,以增强解决问题的能力和适应性,分享给大家,希望对各位有用从单一模型到复合AI系统单一模型的局限性为了解释这个问题,我们首先需要看看生成式AI领域的各种变化。首先,讨论从单一模型到复合AI系统的转变‍单独的模型受其训...

2024-07-16 19:15:07 45

转载 从零训练的 1B 以下小模型汇总

作者:Angry Bugs@知乎链接:https://zhuanlan.zhihu.com/p/693252663最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来,一直都想从头自己训练一个 1B 以下的模型,感觉这样才算是真的学过了。不过以手头的资源,也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料,主要是 GitHub 上的仓库和 Arxiv 上的 paper,顺便记录在这里。ht...

2024-07-15 18:29:31 55

转载 源码解读 - 微软GraphRAG框架

来源:奔跑的日月@知乎1. 引言这几天微软开源了一个新的基于知识图谱构建的检索增强生成(RAG)系统, GraphRAG, 该框架旨在利用大型语言模型(LLMs)从非结构化文本中提取结构化数据, 构建具有标签的知识图谱,以支持数据集问题生成、摘要问答等多种应用场景。GraphRAG 的一大特色是利用图机器学习算法针对数据集进行语义聚合和层次化分析,因而可以回答一些相对高层级的抽象或总结性问题, 这...

2024-07-15 18:29:31 82

转载 一站式AI视频创作平台"寻光",打造全新AI工作流!

来源:机器之心今年是 AI 视频生成爆发的元年,以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于 AI 的视频创作方式开始流行起来。但新技术也引发更多的挑战与质疑,除了大家熟知的 “开盲盒”现象,AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试,其中来自于多伦多的...

2024-07-11 13:02:36 79

转载 人工智能的尽头—“具身智能”

2024 年 7 月 4 日,一年一度的世界人工智能大会 ( WAIC ) 在上海拉开帷幕,多款具身智能机器人惊艳亮相。早在ITF Worl半导体大会上英伟达CEO黄仁勋就曾表示:AI下一个浪潮正是“具身智能”。随着LLM不断智能化,具身智能体一定是未来的大势所趋。至少未来3三年,将会涌现出一大批基于具身智能体的相关研究,这次我整合了具身智能的技术路线图(39篇论文和代码)+人形机器人企业大全+4...

2024-07-11 13:02:36 64

转载 全面剖析Mamba2/Dora/LoftQ/GaLore/KTO/IPO/SimPO/GPTQ/AWQ/GGUF等热门大模型技术

大模型技术的发展和迭代2024年已经可以按天来计算了,几乎每天都有新的大模型和技术登场,从基座模型Mamba2,Jamaba,到Dora,LoftQ,GaLore等最新的微调技术;KTO,IPO,SimPO等微调技术;再到GPTQ,SmoothQuant,AWQ,GGUF等量化技术。大模型全链路的技术的迭代日新月异。您是否有感觉自己的技术能力以及学习步伐有点跟不上技术的发展?或者对这些新兴技术的理...

2024-07-10 16:01:03 94

转载 大模型不止有RAG、参数存储,还有第3种记忆!

来源:机器之心2.4B 的Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM 配备显式记忆(一种比模型参数和 RAG 更便宜的记忆格...

2024-07-10 16:01:03 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除