自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1608)
  • 收藏
  • 关注

转载 万字长文总结大模型微调技能图谱

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并制作了大模型微调技能图谱,希望可以帮助大家将知识体系梳理清楚,为未来在大模型的工作与科研道路上节省时...

2024-05-08 10:01:17 6

转载 一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

来源:机器之心开源大模型领域,又迎来一位强有力的竞争者。近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址:https://github.com/deepseek-ai/DeepSeek-V2论文标题:DeepSeek-V2: A Strong, Economical,...

2024-05-08 10:01:17 4

转载 AI教母李飞飞最终还是选择了创业!

来源:AI大模型实验室著名 AI 科学家、斯坦福大学教授李飞飞正式宣布创业,她成立了一家主要从事 “空间智能” 研发的公司,并且已经完成种子融资,投资方包括 a16z 和 Radical Ventures。查询坦福大学网站发现,李飞飞的个人介绍页面状态显示为:“2024 年 1 月 1 日至 2025 年 12 月 31 日,部分休假。”斯坦福大学李飞飞个人介绍页面:https://profile...

2024-05-06 19:53:48 9

转载 用扣子/Coze 揭秘吴恩达的4种 AI Agent 设计模式

来源:扣子Coze吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察,提出了目前有 4 种主要的 Agent 设计模式,分别是:Reflection:让 Agent 审视和修正自己生成的输出;Tool Use:LLM 生成代码、调用 API 等进行实际操作;Planning:让 Agent 分解复杂任务并按计划执行;Multiagent Collaboration:多个 Agen...

2024-05-06 19:53:48 17

转载 全面解析RLHF,PPO,DPO,Flash Attention,增量学习等大模型算法

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并制作了大模型微调技能图谱,希望可以帮助大家将知识体系梳理清楚,为未来在大模型的工作与科研道路上节省时...

2024-04-29 08:00:48 11

转载 GPT-5强到发指,Scaling Law依然有效!

来源:新智元【导读】奥特曼的斯坦福闭门演讲内容曝光了,可谓亮点频出:GPT-5会比GPT-4强得多,GPT-6还会更强;Scaling Law还未过时,我们远未达到这条曲线的顶端;谷歌用GPT-4复刻出Gemini很容易,但难的是新范式的创新。AI届大红人Altman在母校斯坦福开讲当天,在场的学生挤爆了英伟达礼堂。去礼堂路的上,人满为患,超1000人早早排在了门口。而整个礼堂,也是虚无坐席。就在...

2024-04-27 15:15:14 7

转载 清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律...

允中 发自 凹非寺来源 | 量子位QbitAISora席卷世界,也掀起了全球竞逐AI视频生成的热潮。就在今天,国内又有一支短片引发关注。视频来自生数科技联合清华大学最新发布的视频大模型「Vidu」。从官宣消息看,「Vidu」支持一键生成长达16秒、分辨率达1080p的高清视频内容。更令人惊喜的是,「Vidu」画面效果非常接近Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出...

2024-04-27 15:15:14 61

转载 Open-Sora全面开源升级:支持16s视频生成和720p分辨率

来源:机器之心Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景,发b站再生成个竖屏,发抖音还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了怎么玩?指路GitHub:https://github.com/hpcai...

2024-04-25 16:10:36 16

转载 大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五

克雷西 发自 凹非寺来源 | 量子位QbitAI关于Llama 3,又有测试结果新鲜出炉——大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。最终,Llama 3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude 3超大...

2024-04-25 16:10:36 12

转载 一大堆中文版Llama3纷至沓来!

写在前面大家好,我是刘聪NLP。Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多Chinese-Llama3 repo,开源社区也是相当的卷。再看到Llama3相关报告的时候,就预料到会有很多Chinese-Llama3,因为Llama3对中文十分不友好,15T Tokens的训练数据,仅有5%(750B Tokens)是其他语言,那么中文就更少了。当时还抖激灵,说先开个repo占...

2024-04-23 14:00:59 149

转载 【重磅!免费公开课】Llama 3技术剖析、微调、部署以及多模态训练

Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3,包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。Meta称其为“迄今为止最强的开源大模型”。Meta官方数据显示,Llama 3 8B模型在MMLU、GPQA、HumanEval等多项基准上均胜过同参数量级模型Gemma 7B和Mistral 7B Instruct,而70B模型则超越了...

2024-04-23 14:00:59 48

转载 北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

鱼羊 发自 凹非寺来源 | 量子位QbitAI北大和字节联手搞了个大的:提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件Diffusion Transformer(DiT)。并且代码开源,短短几天已经揽下1.3k标星,登上GitHub趋势榜。具体是个什么效果?实验数据上,这个名为VAR(Visual Autoregressive Modeling)的新方法...

2024-04-22 18:02:36 14

转载 大佬如何看待 Meta 发布 Llama3?

来源:知乎成诚(昆仑万维 AI Infra负责人)回答:Highlight:美中不足的是 LLaMa3 不会有 MoE 架构的模型,包括 400B+ 版本也是 Dense。其次 LLaMa3 也没有发布多模态版本的模型,甚至是 Early Access 的效果展示8B 模型吃 15T token 仍然有效,比 Mistral-7B 的 8T token 又翻了一倍 (最开始 Chinchilla ...

2024-04-20 19:23:37 53

转载 从今天起,人人都是AI开发者!

Robin 在 深圳来源 | 量子位QbitAI未来,自然语言将成为新的通用编程语言,你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上发表“人人都是开发者”的主题演讲,他指出:AI正在掀起一场创造力革命,未来开发应用就像拍个短视频一样简单,人人都是开发者,人人都是创造者。他表示,百度作为一家技...

2024-04-17 10:01:08 23

转载 藤校,G5名校导师计算机科研项目招生 | 发论文,拿推荐信的机会来啦

哈佛,MIT,耶鲁,剑桥,牛津...等排名top30的导师及各大学科顶会顶刊审稿人亲自领衔的『计算机科学一对一科研项目』终于全面开放如果你对上面的项目感兴趣请长按识别下方二维码添加顾问老师微信咨询并发送专属口令【人工智能与算法学习】即可领取专属报名优惠↓↓↓↓↓如果你对上面的项目感兴趣请长按识别下方二维码添加顾问老师微信咨询并发送专属口令【人工智能与算法学习】即可领取专属报名优惠↓↓↓↓↓盐趣开...

2024-04-17 10:01:08 14

转载 一文全面盘点算法工程师大模型微调技能图谱

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并制作了大模型微调技能图谱,希望可以帮助大家将知识体系梳理清楚,为未来在大模型的工作与科研道路上节省时...

2024-04-16 14:00:39 35

转载 多模态大语言模型综述

去年以来,我们见证了以 GPT-4V 为代表的多模态大语言模型(Multimodal Large Language Model,MLLM)的飞速发展。为此我们对综述进行了重大升级,帮助大家全面了解该领域的发展现状以及潜在的发展方向。MLLM 发展脉络图MLLM 脱胎于近年来广受关注的大语言模型(Large Language Model , LLM),在其原有的强大泛化和推理能力基础上,进一步引入了...

2024-04-15 22:06:12 52

转载 GPT-4V又被超越了一次,马斯克的首款多模态大模型来了!

来源:机器之心自从 2023 年 11 月 Grok 首次亮相以来,马斯克的 xAI 正在大模型领域不断取得进步,向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。昨天,xAI 推出了 Grok-1.5V,该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。官方博文表示:「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,...

2024-04-15 22:06:12 28

转载 2023年图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了!

白交 丰色 发自 凹非寺来源 | 量子位QbitAI刚刚,“计算机界最高荣誉”图灵奖揭晓——复杂性理论先驱、普林斯顿高等研究院教授艾维·维格森(Avi Wigderson)摘得。美国计算机协会(ACM)表示,表彰他对计算理论的基础性贡献,包括重塑人类对计算中随机性作用的理解,以及数十年来在理论计算机科学领域的领导地位。加上2021年获得的阿贝尔奖,维格森教授现在一举成为首个同时拿下数学和计算机最...

2024-04-11 18:16:44 50

转载 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞

【导读】毫无疑问,数学家的工作方式,正在被AI颠覆!陶哲轩转发的这期美国数学学会通报,大咖云集,星光璀璨。针对AI改变数学的议题,他们中有降临派,也有怀疑论者。而陶哲轩也直接高呼:这个领域太快了,现在我没发表的论文已经不够看了!AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(Bulletin of the American Mathematical...

2024-04-11 18:16:44 24

转载 Mamba架构第一次做大!混合Transformer,打败Transformer

丰色 发自 凹非寺来源 | 量子位QbitAI精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。520亿参数,还是Mamba+Transformer混合架构。它的名字叫Jamba。取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。初步跑分显示:Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍。一共支持256k上下文,而单...

2024-04-08 14:50:46 37

转载 超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k

来源:机器之心在大模型落地应用的过程中,端侧 AI 是非常重要的一个方向。近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社区的极大关注,模型一夜下载量超 2k。20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 Llama7B + RAG 方案快...

2024-04-08 14:50:46 64

转载 大模型技术飞速发展,算法工程师岗位也要大洗牌了?

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。作为算法工程师,面对如此飞快的技术迭代,是否感觉到自己的学习步伐有点跟不上技术的发展?而且对这些新兴技术的理解仅仅停留在应用层面上,实际上对背后的原理没有具体剖析过...

2024-04-07 14:30:38 21

转载 CVPR 2024录用结果出炉!2719篇论文被接收,录用率23.6%

来源:新智元【导读】一年一度的CVPR 2024录用结果出炉了。今年,共有2719篇论文被接收,录用率为23.6%。CVPR 2024最终录用结果公布了!刚刚,CVPR官方发文称,今年共提交了11532份有效论文,2719篇论文被接收,录用率为23.6%。与去年相比,共有9155篇论文提交,2359篇论文接收,录用率降低2.2%。官方给的回复是,数据每年都会有波动的。据统计,CVPR的投稿量在20...

2024-04-07 14:30:38 94

转载 全球首个开源文生视频DiT

来源:机器之心随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领域却是一个挑战,来自上海人工智能实验室的研究团队联合其他机构通过大规模的实验回答了这个问题。早在去年 11 月,该团队就已经开源了一款...

2024-03-29 11:01:33 71

转载 开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有

来源:机器之心「太狂野了」。这是迄今为止最强大的开源大语言模型,超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。本周三,大数据人工智能公司 Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数的混合专家模型(MoE)。DBRX 的基础(DBRX Base)和微调(DBRX Instruct)版本已经在 GitHub 和 Hugging Face...

2024-03-28 22:16:52 89

转载 AI作曲家爆改周杰伦,华语乐坛一夜颠覆!Suno秒生爆款神曲,人人都成音乐家...

【导读】就在这几天,这款叫Suno AI的工具简直要一夜颠覆音乐圈。经它爆改的周董金曲,《以父之名》和《夜曲》直接封神。不懂乐理不懂作曲?没关系,从此人人都是音乐家!要疯了,Suno AI已经引起了音乐圈的大地震!人们纷纷惊呼:音乐人已死!外媒的描述是这样的——「可能席卷全世界的可怕AI音乐」。初创公司Suno AI,已经被公认为「音乐界的ChatGPT」。无人能否认它刮起的飓风。在官网上,Sun...

2024-03-28 22:16:52 83

转载 免费使用GPU算力,大模型部署轻松搞定!

活动时间2024年3月25日-4月15日活动内容1、免费试用:活动期间新用户开通试算即赠660元卡时GPU试算资源。A100 PCIE 40G、RTX 4090 24G、RTX 3090 24G等加速卡免费试用。2、充值有礼:活动期间完成账户充值的用户,根据充值金额兑换相应礼品。礼品兑换条件兑换说明小米魔方插头累计充值>5000元可兑换小米魔方插头一个。乐扣保温杯累计充值>30000元可兑换乐扣保...

2024-03-26 14:30:24 70

转载 全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂!

来源:新智元【导读】用不了多久,开源版的Sora就会涌来!理海大学微软团队已经做出一种全新多AI智能体框架Mora,可以完全复刻Sora能力,且生成视频效果几乎不相上下。微软版Sora诞生了!Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。尽管提出了Diffusion Transformer和空间patch策略,但想要达到Sora的性能还是很难,何...

2024-03-26 14:30:24 40

转载 全面解析LoRA、QLoRA、RLHF,PPO,DPO,Flash Attention、增量学习等大模型算法

随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。作为算法工程师,面对如此飞快的技术迭代,是否感觉到自己的学习步伐有点跟不上技术的发展?而且对这些新兴技术的理解仅仅停留在应用层面上,实际上对背后的原理没有具体剖析过...

2024-03-19 14:30:38 66

转载 2024年,大模型这些方向再次卷疯了!

2024年,大模型再次卷疯了!就在今日,Anthropic发布的Claude 3系列模型,已经实现了对最新大模型的全面超越。大模型(LLMs)是一种人工智能模型,旨在理解和生成人类语言。大模型通过在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。为了更好地让大家了解大模型时下爆火热点并抓住机遇,我们邀请顶会审稿人/workshop、高效教授/博导、大厂算法研究员等大...

2024-03-18 14:30:13 57

转载 清华、浙大、复旦校友在列,2024苹果博士奖学金,华人占一半!

来源:机器之心在今年评选出的 21 位苹果学者之中,华人博士生依然是主力军。刚刚,苹果机器学习研究中心(Apple Machine Learning Research)正式公布了 2024 年 AI(人工智能)、ML(机器学习)领域获得博士生奖学金的「苹果学者」名单。今年共有 21 位年轻学者获得了苹果学者计划的资助,华人占了一半。苹果博士奖学金旨在奖励和支持计算机科学与工程领域极具潜力的博士研究...

2024-03-12 15:49:52 61

转载 国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动

国产Sora来了!这家公司的AI视频已经实现了15秒4K 60帧的超逼真效果。而且,它和小米、快手都已展开战略合作,瞄准了500亿美元的短剧出海市场。OpenAI的Sora,现在是彻底把AI视频的场子给热起来了。不仅Stable Video立马上线了公测,而且Pika也随即拿出了给视频对口型的Lip Sync,以及可以根据内容自动生成声音的音效生成功能。LTX Studio则另辟蹊径,上线了电影制...

2024-03-12 15:49:52 83

转载 何恺明教授在MIT的第一堂课

来源:机器之心700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:https://advances-in-vision.github.io/index.html有网友评论说,能选上这课的学生太幸运了,每节都是计...

2024-03-10 17:31:15 35

转载 Claude 3只用2小时破解博士一年实验成果,网友惊呼:科研不存在了!

【导读】这几天,越来越多博士发现,自己耗费数年心血的研究成果,竟然被Claude 3轻轻松松实现了?化学,物理学,语言学,不断被Claude 3定向爆破,博士手里的论文没发表就被它做出来了。科研还存在吗?Claude 3,还在不断创造奇迹。发布还没几天,就有越来越多的博士发现,自己手里还没发表过的研究成果,居然都被Claude 3给破解了?!化学博士发现,自己要做一年实验的研究,Claude 3 ...

2024-03-10 17:31:15 51

转载 CVPR2024满分论文出炉!这些方向爆火!

计算机视觉(CV)一直是目前深度学习领域最热的研究领域,其是一种交叉学科包括计算机科学,从刚出炉的CVPR2024来看,目标检测、三维重建、自动驾驶、SAM、图像分类等依旧是时下大热门!为了让大家进一步了解CV热门领域,我们联合高校教授、博导、顶会审稿人/workshop、大厂算法研究员,打造了2024CV最新热点系列课程,包含SAM、自动驾驶、三维重建、AIGC等热门方向,更有经典CV论文带读课...

2024-03-08 00:00:41 243

转载 使用PyTorch实现去噪扩散模型

来源:DeepHubIMBA在深入研究去噪扩散概率模型(DDPM)如何工作的细节之前,让我们先看看生成式人工智能的一些发展,也就是DDPM的一些基础研究。VAEVAE 采用了编码器、概率潜在空间和解码器。在训练过程中,编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进行采样,并将其传递到解码器中,其中输入的图像预计与输出的图像相似。这个过程包括使用KL Divergence来计算损失。V...

2024-02-26 21:23:12 190

转载 LeCun怒斥Sora是世界模型,自回归LLM太简化了

来源:机器之心LeCun 对「世界模型」给出了最新定义。最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。英伟达高级研究科学家 Jim Fan 甚至断言:「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。...

2024-02-26 21:23:12 62

转载 谷歌正式推出开源大语言模型 Gemma,声称超越 Meta Llama-2 竞品,将带来哪些影响?...

作者:张俊林@知乎关于Google开源Gemma的一些零散的看法:-Google Gemma代表谷歌被迫再次切入开源领域,谷歌重返开源赛场,这是个大好事,但很明显是被迫的。去年Google貌似已经下定决心要闭源了,这可能源于低估了追赶OpenAI的技术难度,Bard推出令人大失所望使得谷歌不得不面对现实,去年下半年进入很尴尬的局面,闭源要追上OpenAI估计还要不少时间,而开源方面Meta已下决心...

2024-02-22 17:14:07 66

转载 10倍英伟达GPU:大模型专用芯片一夜成名!

白交 克雷西 发自 凹非寺来源 | 量子位QbitAI太快了太快了。一夜间,大模型生成已经没什么延迟了……来感受下这速度。眼花缭乱了吧,生成速度已经接近每秒500 tokens。还有更直观的列表对比,速度最高能比以往这些云平台厂商快个18倍吧。(这里面还有个熟悉的身影:Lepton)网友表示:这速度简直就是飞机vs走路。值得一提的是,这并非哪家大公司进展——初创公司Groq,谷歌TPU团队原班人...

2024-02-22 17:14:07 59

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除