AI大模型商业模式思考
本篇报告,我们通过对海内外AI大模型企业的研究,提供对AI大模型商业模式的思考框架:1)基础大模型未来的竞争格局方面,或赢者通吃,或国内外分别寡头竞争,而行业大模型则有望百花齐放;2)本轮AI应用中,“AI+”还是“+AI”能够取胜需要根据场景具体讨论,取决于AI在业务流程中是否具有护城河,以及AI在业务价值链的占比;3)开源模型和闭源模型在未来较长一段时间内将形成相互摇摆的博弈格局。
基础大模型或国内外各形成寡头竞争格局,行业大模型百花齐放
目前,“基础大模型→行业大模型→终端应用”的大模型路线非常清晰。训练基础大模型的高成本和高技术壁垒,决定了科技巨头或成为主要玩家。目前基础模型仍处于军备竞争的阶段,未来的竞争格局有两种可能:1)赢者通吃;2)国内外多个大赢家共存。行业大模型的市场潜力较大,关键在于对行业的Know-How。未来行业大模型很可能是一个百花齐放的市场。以头部玩家提供的基础大模型为底座,未来可能产生专门精调行业大模型的公司,凭借对垂直领域的Know-How深耕某一赛道的行业大模型;在垂直领域积累已久的公司,具备入局该垂直领域行业大模型的先发优势。
开源模型vs闭源模型
海外头部厂商中,OpenAI和谷歌闭源模型领先,Meta凭借开源模型独树一帜。开源大模型具备低成本高效落地、技术迭代迅速以及可私有化部署的属性,解决闭源大模型应用痛点随着以Llama为代表的高性能开源大模型的出现,对于垂直行业应用公司来讲,从头训练大模型的模式的意义正在下降。开源模式将蚕食闭源模型一定的市场份额,两者在未来较长一段时间内将形成相互摇摆的博弈格局。
AI+还是+AI:关注AI是否具有护城河及全业务流程价值链占比
“AI+”(以AI技术赋能行业的科技企业)还是“+AI”(采用AI技术的传统企业)能够胜出是上一轮AI投资最大的争议。我们认为在本轮以大模型为代表的创新周期中,选择“AI+”还是“+AI”有以下关注点:1)AI在全业务流程价值链的比例;2)业务中AI是否具有护城河。本轮“+AI”和“AI+”都可能获得可观价值,“+AI”赋能众多传统业务,“AI+”更可能重塑行业。对于“+AI”,传统行业众多,意味着“+AI”的落地场景众多,传统行业体量大,赋能的新增价值将产生规模效应。对于“AI+”,算力、算法、数据等壁垒较高,有较高的进入门槛,先发优势明显。
风险提示:AI 及技术落地不及预期;硬件产品销售不及预期,服务业务用户增速放缓。本研报中涉及到未上市公司或未覆盖个 股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
正文
从2022年11月OpenAI推出ChatGPT至今,OpenAI、微软、谷歌、百度、阿里、字节跳动、讯飞等国内外企业争先发布自己的大模型。大模型的能力最初仅限于文字问答,此后逐渐引入图像理解、文生图能力,并通过GPT Store拓展功能,形成了AI Agent雏形,近期GPT-4o则实现了具备情感的互动。大模型的能力提升推动应用迅速向具备记忆、推理、规划、执行等能力的AI Agent演进。
AI大模型性能持续快速提升。以衡量LLM的常用评测标准MMLU为例,2021年底全球最先进大模型的MMLU 5-shot得分刚达到60%,2022年底超过70%,而2023年底已提升至超过85%。以OpenAI为例,2020年7月推出的GPT-3得分43.9%,2022年11月推出的GPT-3.5提升至70.0%,2023年3月和2024年5月推出的GPT-4、GPT-4o分别提升至86.4%和87.2%。谷歌目前性能最佳的大模型Gemini 1.5 Pro得分达到85.9%。开源模型性能不容小觑,2024年4月推出的Llama 3 70B得分已经达到82.0%。
在语言能力之外,AI大模型的多模态能力也快速提升。2023年初,主流闭源大模型通常为纯文本的LLM。2023年至今,闭源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成能力。如图表13所示,虽然开源模型的文本能力有了较大提升,但大多数开源模型尚不具备多模态能力。目前大模型多模态能力的技术聚焦转向了原生多模态。全球仅谷歌和OpenAI发布了其原生多模态模型Gemini、GPT-4o。创建多模态模型时,往往分别训练不同模态的模型并加以拼接,而原生多模态模型一开始就在不同模态(文本、代码、音频、图像和视频)上进行预训练,因此能够对输入的各模态内容顺畅地理解和推理,效果更优。例如,对于非原生多模态模型的GPT-4,其语音模式由三个独立模型组成,分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频,导致 GPT-4 丢失了大量信息——无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而原生多模态模型GPT-4o,多种模态的输入和输出都由同一神经网络处理,因此信息丢失更少,模型效果更好。
AI大模型不断提升的同时,得益于算力芯片性能的提升与推理部署的优化,大模型应用成本快速下降,为基于大模型的应用发展创造了基础。目前OpenAI最前沿的GPT-4o (128k)输入输出的平均价格比2022年11月的GPT-3 Da Vinci低一半,主打高性价比的GPT-3.5 (16k)平均价格则比GPT-3 Da Vinci低95%。在GPT-4系列中,GPT-4o (128k)平均价格相较2023年3月的GPT-4 (32K)低89%。
基础大模型vs行业模型,开源模型vs闭源模型
基础大模型,也称为通用大模型,是通过基于海量通用数据进行预训练而得到的。其优点在于拥有强大的泛化能力。基础大模型通常利用大算力和拥有大量参数的深度学习算法,在大量无标注的通用数据上进行预训练,从而形成能够“举一反三”的泛化能力,相当于AI完成了“通识教育”。基础大模型将AI的开发应用从“小作坊”带入“大工业”时代,但由于缺乏特定场景的语料和数据集的训练及模型调优,因此在特定场景下的“专业度”还有待提高。代表性的基础大模型包括,OpenAI的GPT-4o,谷歌的Gemini 1.5,和Meta的Llama 3。
行业大模型是在基础大模型的基础上,进一步融合行业数据、知识和专家经验,从而有效提升模型的表现和可控性。其优点在于更为专业,并对于不同的应用场景具有更强的适配性。目前,在金融、能源、制造、传媒等领域,已经有部分头部企业与科技公司或科研单位联合发布了行业大模型。
大模型的竞争者越来越多,既有OpenAI、微软、谷歌、Meta、百度、腾讯、阿里、商汤等科技企业,又有智谱、月之暗面等初创企业。随着大模型被越来越多的消费者及企业接受,未来的市场竞争格局将决定大模型生态系统的发展空间和最终赢家。由于基础大模型与行业大模型存在差异,这两类大模型最终可能形成不同的竞争格局。随着大模型在更多应用端的渗透,科技企业关于大模型的军备竞赛已经从基础大模型延伸到行业大模型。
开源模型异军突起,给闭源模型带来猛烈冲击。海外市场中,OpenAI和谷歌闭源模型领先,Meta凭借开源模型Llama系列模型独树一帜;国内市场中,百度、月之暗面等坚持闭源模型,阿里、商汤、智谱、百川、零一万物等互联网大厂或初创公司开源与闭源兼具。
我们认为,随着以Llama为代表的高性能开源大模型的出现,对于垂直行业应用公司来讲,从头训练大模型的模式的意义正在下降,我们已经看到部分垂直应用公司转而采取开源模型+矢量数据库的形式,解决特定应用场景和问题。开源模式将蚕食闭源模式一定的市场份额,两者在未来较长一段时间内或将形成相互摇摆的博弈格局。
以Llama为代表的的前沿开源模型性能优异。以Meta 2024年4月发布的Llama 3为例,其分为大中小三个版本,相比其他模型:小规模的8B模型效果比同类大小的模型Mistral 7B、Gemma 7B略好或基本持平;中等规模的70B模型效果比Gemini Pro 1.5、Claude 3 Sonnet略好或相当,并超过GPT-3.5;最大的400B模型仍在训练过程中,设计目标是多模态、多语言,根据Meta公布的目前训练数据,其性能与GPT-4相当。
开源大模型具备低成本高效落地、技术迭代迅速以及可私有化部署的属性,解决闭源大模型应用痛点。1)低成本高效落地:模型从头训练需要大额资金投入,使用闭源大模型在企业用户量攀升后Token费用将水涨船高;而开源大模型可以帮助用户简化模型训练和部署过程,并节省高额初始及后期资金投入,用户只需从开源社区如HuggingFace中免费下载预训练好的模型并进行微调,就可快速构建高质量的模型。2)技术迭代迅速:在Llama 2、Llama3开源发布后,吸引了全球开发者和爱好者参与开发和改进,当前已快速衍生出一系列开源的基础模型与行业模型,这极大地加快了创新和迭代的速度。3)私有化部署:如果把行业的know-how数据输送给闭源大模型,可能存在数据泄露的风险;而开源大模型可部署在企业内网的AI服务器上,帮助企业保护敏感数据安全性。
开源模式的任何渐进式改进都在蚕食闭源模型的市场份额,未来两者或在相当长一段时间内形成互相博弈和竞争的格局。部分原计划用闭源大模型如GPT-4的垂直应用公司,可能会迫于成本、定制开发等原因,转而选择Llama或其他开源模型。另外,开源也能让其他新加入者更快适应AI产业,未来一天或几天之内的训练周期将成为常态,以这样的速度,微调的累积效应将很快帮助小模型克服体量上的劣势。开源模型和闭源模型各有所长,二者将长期共存:1)模型方面,闭源大模型的质量更高,例如Llama 2-70B在代码生成上与GPT-3.5仍有显著差距。且快速迭代的开源模型数量庞大,对用户而言选择成本随之上升;2)安全性方面,闭源大模型的可靠性更有保障。部分客户如大型政企,在大模型采购时往往需要大公司的品牌作为可靠性背书。3)产业化方面,闭源大模型的长期服务能力更强、更可用。大模型与业务结合,需要产品、运营、测试工程师等多种角色共同参与,同时大模型的长期应用所需的算力、存储、网络等配套都要跟上,开源社区无法帮助用户“一站式”解决这些细节问题。因此,这场博弈将在未来引导着开源、闭源两种模式不断进行改进,模型产业化应用将成为两种模式的试金石。
此外,面对性能优异的Llama及其快速增多的衍生开源模型,部分AI初创企业可能正在失去存在的意义,市场内自研模型的公司数量或将快速收敛,除了科技巨头外,只有少数具备先发优势的AI初创企业能够在激烈的竞争中生存下来。
AI+还是+AI:关注AI是否具有护城河及全业务流程价值链占比
随着大模型能力的不断增强,AI的作用不断深化,生成式AI新的应用不断被解锁。通过对AI在搜索、电商零售、办公、金融法律、影视游戏,医药、教育、汽车等行业应用前景的分析,我们认为,AI应用的落地节奏或与行业数字化程度成正比,我们看到AI大模型在互联网(搜索+广告营销)、办公、金融等领域率先迎来“iPhone时刻”。其中最值得关注的应用包括:1)文本生成在电商、金融、医疗等行业替代传统客服;2)文本和图像生成在办公、广告营销、金融、影视游戏等领域成为下一代生产力工具;3)蛋白质生成能力拓宽人类探讨世界的范围,特别是在新药开发上的应用前景。
“AI+”(以AI技术赋能行业的科技企业)还是“+AI”(采用AI技术的传统企业)能够胜出是上一轮AI投资最大的争议。“AI+”是以AI技术为核心,重构现有业务;“+AI”是以现有业务为核心,借助AI降本增效,是改进而非重建。从结果来看,“AI+”企业在智慧城市等特定领域获得商业成功,但互联网(例如谷歌、百度的搜索,头条的推荐,阿里的广告)、金融等行业通过已有业务+AI提升了效率。我们认为上一轮“AI+”企业没有全面成功的原因是算法的进入壁垒相对较低。
本次大模型主导的创新周期相比上一轮以国内AI四小龙(商汤、旷视、云从、依图)为代表的AI浪潮主要有三点区别:1)大模型能力更强。预训练大模型算法架构更先进,训练消耗的数据量和算力跃升,因此泛化能力更强。2)应用落地更明确。生成式AI在许多领域成为了生产力工具。3)商业模式更清晰多样。上一轮AI浪潮,AI公司采用小模型+软硬结合的定制化解决方案变现,偏通用化软件化的API和SaaS并未成为主流的变现方式。本次创新周期中,ToC的订阅费、ToB的API调用费成为主流的变现手段,ToB的MaaS商业模式也逐渐清晰。
在当前大模型主导的创新周期中,大模型的应用模式仍然是许多企业关注的焦点。企业需要决定是选择“AI+”(以AI技术为核心,重构现有业务)还是“+AI”(以现有业务为核心,借助AI降本增效)?我们认为,对于大模型应用模式的选择可以从两个方面考虑:
首先,要考虑AI在企业全业务流程价值链中所占比例。如果AI在该赛道全业务流程价值链中所占比例很小,比如只有10%,则更容易从“+AI”切入。因为要从“AI+”切入,企业需要先将剩下的90%业务补足,而在产业链深耕多年的竞争对手很可能已经补足了这90%。相比之下,如果AI占据全业务价值链的较大比例,“AI+”将有更大的发展空间。例如,在电商领域,可能更适合从“+AI”切入。因为即使没有AI技术,商家仍然可以通过提供更优质的产品和服务来取胜。这是因为AI在电商全业务价值链中所占比例较低,而用户、渠道和产品等因素更为关键。大模型在电商领域更多地用于降低成本和增加效率,例如自动生成营销文案、图像快速检索和智能语音客服等。
其次,要考虑企业业务中AI是否具备护城河。如果AI在业务中没有护城河或者门槛很低,选择“+AI”更适合持续发展。因为一旦传统企业认识到AI的价值,也开始采用“+AI”策略,其他企业很容易赶上来。在这种情况下,创业公司选择“AI+”可能难以生存。相反,如果AI在业务中形成了较高的护城河,“AI+”也许会产生创业机会。即使AI只占全产业链的一小部分,比如30%,但这30%却具有非常高的门槛。后来进入市场的传统企业即使在其余70%上取得优势,也难以突破这30%的高门槛。因此,提前入局并占据了30%份额的企业仍能持续经营,这也是“AI+”模式的机会所在。
在蛋白质结构预测领域,采用“AI+”模式可能会取得突破性进展。蛋白质的功能很大程度上取决于其3D结构,而预测蛋白质的3D结构是一个非常复杂的过程。以前,计算所有可能的折叠方式需要耗费极长的时间。然而,AI大模型为蛋白质结构预测提供了新的解决方案。例如,DeepMind从2016年开始研究,,在2018年发布了AlphaFold,2020年推出了AlphaFold 2,2024年推出了AlphaFold 3。AlphaFold 2已被用来预测数亿个蛋白质结构,如果按照当前实验性结构生物学的进度,将需要数亿年的时间。与传统的蛋白质结构预测方法相比,AlphaFold 3在预测蛋白质与其他分子类型的相互作用方面,准确度至少提高了50%。此外,AlphaFold 3不仅限于蛋白质结构预测,还能够对包括核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。蛋白质结构预测的大模型门槛很高,目前行业内的企业数量较少。
本轮“+AI”和“AI+”都可能获得可观的价值,“+AI”赋能众多传统业务,“AI+”更可能重塑行业。
对于“+AI”,1)传统行业众多,意味着“+AI”的落地场景众多;2)传统行业体量大,赋能的新增价值将产生规模效应,例如一家银行或一家造车公司,如果AI可以帮其提升3-5%的效率,就能产生较为可观的价值;3)关注更易与AI结合的传统业务及其龙头企业,比如电商的阿里和京东、办公软件的微软和金山办公等,因为有自身发展需求、具备商业价值的海量数据,我们认为积极拥抱AI技术等特质的传统企业更可能考虑+AI。
对于“AI+”,1)算力、算法、数据等壁垒较高,有较高的进入门槛,先发优势明显;2)在数据更私密、算法壁垒更高、定制化程度较高的自动驾驶等关键领域,“AI+”公司有机会深耕并占据细分赛道的领先地位。
海外大模型:微软&OpenAI、谷歌、Meta
我们复盘了过去一年海外基础大模型训练企业在大模型技术、产品化和商业化上的进展。微软和OpenAI是目前大模型技术水平、产品化落地最为前沿的领军者,其对颠覆式创新的持续投入是当前领先的深层原因。谷歌技术储备丰厚,自有业务生态广阔并且是AI落地的潜在场景,过去由于管理松散未形成合力,我们看到谷歌从2023年开始整合Google Brain和DeepMind,目前正在产品化、生态化加速追赶。Meta选择模型开源的防御性策略,以应对OpenAI、谷歌等竞争对手的强势闭源模型。
微软&OpenAI:闭源模型全球领先,大模型产品化处于前沿
OpenAI最前沿模型GPT系列持续迭代。2022年11月,OpenAI推出的基于GPT-3.5的ChatGPT开启了AI大模型热潮。此后,OpenAI持续迭代GPT系列模型:1)2023年3月发布GPT-4,相比GPT-3.5仅支持文字/代码的输入输出,GPT-4支持输入图像并且能够真正理解;2)2023年9月发布GPT-4V,升级了语音交互、图像读取和理解等多模态功能;3)2023年10月将DALL・E 3与ChatGPT结合,支持文生图功能;4)2023年11月发布GPT-4 turbo,相比GPT-4性能提升,成本降低,支持128k tokens上下文窗口(GPT-4最多仅为32k);5)2024年5月发布其首个端到端多模态模型GPT-4o,在文本、推理和编码智能方面实现了 GPT-4Turbo 级别的性能,同时在多语言、音频和视觉功能上性能更优。GPT-4o 的价格是 GPT-4 turbo 的一半,但速度是其2倍。得益于端到端多模态模型架构,GPT-4o 时延大幅降低,人机交互体验感显著增强。
OpenAI多模态模型布局完整。在多模态模型方面,除了文生图模型DALL・E3,OpenAI在2024年2月推出了文生视频模型Sora,Sora支持通过文字或者图片生成长达60秒的视频,远超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI视频应用生成时长,此外还支持在时间上向前或向后扩展视频,以及视频编辑。
微软Phi系列小模型面向开源,将自研MAI系列大模型。微软自研小模型为客户提供更多选择,2023年发布Phi-1.0(1.3B)、Phi-1.5(1.3B)、Phi-2模型(2.7B),2024年开源了 Phi-3系列,包括3款语言模型——Phi-3-mini(3.8B)、Phi-3-small(7B)和Phi-3-medium(14B),以及一款多模态模型Phi-3-vision(4.2B)。此外,据The information 2024年5月报道,微软将推出一款参数达5000亿的大模型,内部称为MAI-1,由前谷歌AI负责人、Inflection CEO Mustafa Suleyman负责监督。
产品化方面,微软与OpenAI利用大模型能力对原有的软件产品、云计算业务、智能硬件进行全面升级。1)微软围绕企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节具有完整的产品矩阵,2023年以来推出相应的Copilot产品对原有产品进行AI大模型赋能,其中产品化最早、最为核心的是面向企业办公场景的Copilot for Microsoft 365,以及面向C端用户的Copilot for Windows,以及集成在Bing搜索、Edge浏览器的Copilot。2)云计算业务方面,Azure云业务向MaaS服务发展,提供算力、模型、数据工具、开发工具等服务。3)智能硬件方面,微软在2024年5月发布GPT-4o加持的Copilot+PC,除微软Surface以外,联想、戴尔、惠普、宏碁、华硕等PC厂商也将发布Copilot+PC新品。2024年6月,苹果宣布与OpenAI的合作,将ChatGPT集成到Apple Intelligence中。用户授权后,苹果与ChatGPT分享查询,以获取更具创意和实用性的建议。
谷歌:闭源模型全球领先,自有业务生态及AI潜在落地空间广阔
谷歌最前沿的闭源模型从PaLM系列切换到Gemini。2022-2023年,PaLM系列模型是谷歌的主力模型,2022年4月发布的PaLM、2022年10月发布的Flan PaLM以及2023年5月I/O大会发布的PaLM-2都是谷歌当时的主力大模型。2023年12月,谷歌发布全球首个原生多模态模型Gemini,包含 Ultra、Pro 和 Nano 三种不同大小。根据Gemini Technical Report,Ultra版在绝大部分测试中优于GPT-4。2024年2月,谷歌发布Gemini 1.5 Pro,性能更强,并且拥有突破性的达100万个Tokens的长上下文窗口。
2024年5月I/O大会上,谷歌对Gemini再次更新:1)发布1.5 Flash,是通过API提供的速度最快的Gemini模型。在具备突破性的长文本能力的情况下,它针对大规模地处理高容量、高频次任务进行了优化,部署起来更具性价比。1.5 Flash在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。2)更新1.5 Pro。除了将模型的上下文窗口扩展到支持200万个tokens之外,1.5 Pro的代码生成、逻辑推理与规划、多轮对话以及音频和图像理解能力进一步提升。
产品化方面,谷歌将大模型能力融入自有软件业务、云计算和智能硬件之中。1)自有软件业务:谷歌在2023年5月I/O大会上宣布将PaLM 2应用在超过25种功能和产品中,包括2B办公套件Workspace、聊天机器人Bard等等。随着谷歌主力大模型切换到Gemini,Workspace和Bard背后的大模型也同步切换。2)云计算:谷歌通过Vertex AI和Google AI Studio向MaaS延伸。Vertex AI是AI开发和运营(AIOps)平台,支持组织开发、部署和管理AI模型。Google AI Studio是基于网络的工具,可以直接在浏览器中设计原型、运行提示并开始使用API。3)智能硬件:2024年下半年,据Techweb,谷歌有望在10月推出Pixel9系列,预计将搭载基于最新Gemini模型的AI助手,执行复杂的多模态任务。
Meta:Llama开源模型领先
Meta凭借Llama系列开源模型在大模型竞争中独树一帜,目前已发布三代模型。Meta在2023年2月、7月分别推出Llama与Llama 2。Llama 2,提供7B、13B、70B三种参数规模,70B在语言理解、数学推理上的得分接近于GPT-3.5,在几乎所有基准上的任务性能都与PaLM 540B持平或表现更好。2024年4月,Meta发布Llama 3,Llama 3性能大幅超越前代Llama 2,在同等级模型中效果最优。本次开源参数量为8B和70B的两个版本,未来数个月内还会推出其他版本,升级点包括多模态、多语言能力、更长的上下文窗口和更强的整体功能。最大的400B模型仍在训练过程中,设计目标是多模态、多语言,根据Meta公布的目前训练数据,其性能与GPT-4相当。
Meta基于Llama系列模型打造智能助手Meta AI、雷朋Meta智能眼镜等硬件产品。Meta同时更新基于Llama 3构建的智能助手Meta AI,无需切换即可在 Instagram、Facebook、WhatsApp和 Messenger的搜索框中畅通使用 Meta AI。Llama 3很快将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake 上推出,并得到AMD、AWS、戴尔、英特尔、英伟达、高通提供的硬件平台的支持。此外,雷朋Meta智能眼镜也将支持多模态的Meta AI。
国内大模型进展
我们复盘了过去一年国内基础大模型训练企业在大模型技术、产品化和商业化上的进展:
1) 国内闭源大模型持续追赶OpenAI:我们看到23年中到23年底的国内主流大模型对标GPT-3.5,23年,开始对标GPT-4。例如2023年10月更新的文心4.0(Ernie 4.0)“综合水平与GPT4相比已经毫不逊色”,2024年1月更新的智谱GLM-4整体性能“逼近GPT-4”,2024年4月更新的商汤日日新5.0“综合性能全面对标 GPT-4 Turbo”。
2) 国内竞争格局逐渐清晰,阵营可分为互联网头部企业、上一轮AI四小龙、创业企业。互联网头部企业中,目前百度与阿里在模型迭代与产品化上领先,字节跳动拥有领先的2C大模型应用豆包,但公开的大模型公司信息较少,腾讯的大模型迭代与产品化稍显落后。商汤是上一代“AI四小龙”公司中唯一在本轮AI 2.0浪潮中未曾掉队、持续创新领先的企业。创业公司中布局各有特色:智谱布局完整,开源、闭源模型兼具,2C/2B并重;月之暗面专注2C闭源,以长文本作为差异化竞争点;Minimax选择MoE模型,以2C社交产品切入;百川智能开源、闭源兼具,2B为主;零一万物从开源模型切入,目前开源和闭源模型兼具。
3) 国内开源模型具备全球竞争力。以阿里Qwen系列、百川智能Baichuan系列、零一万物的Yi系列为代表的国内开源模型成为推动全球开源模型进步的重要力量。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。