大模型科普及商业化理解

大模型是指具有 十亿or 万亿级别参数的深度学习模型。这类模型通过海量数据的训练,能够理解和生成人类语言,展现出接近人类的对话和推理能力。

从技术架构来看,核心是Transformer神经网络。这种架构由编码器(encoder)和解码器(decoder)构成,可以有效捕捉文本中的长距离依赖关系。与传统的RNN和LSTM相比,Transformer在处理序列数据时具有明显优势。

通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高

大模型,英文名叫Large Model,基础模型。包含LLM(语言大模型),还有视觉大模型、多模态大模型等。

从本质来说,大模型,是包含超大规模参数(通常在十亿个以上)的神经网络模型。卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)以及Transformer架构,都属于神经网络模型。目前,业界大部分的大模型,都采用了Transformer架构。这后面就要求架构规模大、训练数据大、算力需求大且非常烧钱。相比之下,参数较少(百万级以下)、层数较浅的模型,是小模型。小模型具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的垂直领域场景。

0****1

训练数据,具体来说,包括4千亿词数据集+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词),绝对堪称海量。

**算力需求和训练大模型,需要大量的GPU算卡资源。**每次训练,都需要很长的时间。如果采用512张英伟达的A100 GPU(单卡算力195 TFLOPS),大约需要1个月的时间。训练过程中,有时候还会出现中断,实际时间会更长。

0****2

大模型是由训练和推理构成运算

训练,又分为预训练(Pre-trained)和微调(Fine tuning)两个环节。

  • 预训练是会选择一个大模型框架,通过“投喂”前面说的海量数据,让大模型学习到通用的特征表示。

简单理解来说就是通过预训练的过程,就是通过对数据的输入和输出,去推算参数。以便模型的后续使用或部署。参数越多,模型通常能够学习到更复杂的模式和特征,从而在各种任务上表现出更强的性能。

在当模型的训练数据和参数达到一定的临界规模后,会表现出一些未能预测的、更复杂的能力和特性。可以理解知识,并且能够发散思维并可以对未见过的数据做出准确的预测。

参数规模越来越大,虽然能让大模型变得更强,但是也会带来更庞大的资源消耗,但也可能增加数据的痴呆;准确来说就是大模型学习的过于精准以至于它开始捕捉并反映训练数据中的噪声和细节,而不是数据的总体趋势或规律。大模型变成“傻”,只会死记硬背,不愿意融会贯通。

这块的话就需要海量的未标注数据。因为,标注数据(基本上靠人肉标注)需要消耗大量的时间和金钱,成本太高。未标注数据的话互联网很容易获取;对于为标准的数据就需要收集、清洗、脱敏和分类等过程。获取数据的方式,也是多样化的。如果是个人和学术研究,可以通过一些官方论坛、开源数据库或者研究机构获取。也可以直接通过外部渠道(市场上有专门的数据提供商)购买。

  • 微调

预训练学习之后就获得了通用大模型。在实际用的时候就需要进行微调。微调进行标注数据集**,对预训练的模型参数进行微小的调整,让模型更好地完成特定任务。微调之后的大模型,可以称之为行业大模型。**

微调阶段,对算力需求小很多。大部分大模型厂商来说,他们一般只做预训练,不做微调。而行业客户来说,他们一般只做微调,不做预训练。“预训练+微调”这种分阶段的大模型训练方式,可以避免重复的投入,节省大量的计算资源,显著提升大模型的训练效率和效果。

0****3

预训练和微调都完成之后,需要对这个大模型进行评估。通过采用实际数据或模拟场景对大模型进行评估验证,确认大模型的性能、稳定性和准确性‌等是否符合设计要求。等评估和验证OK了的话就会进入到,部署阶段。可以真正开始干活了。大模型的推理过程,就是我们使用它的过程。通过提问、提供提示词(Prompt),可以让大模型回答我们的问题,或者按要求进行内容生成。最后,画一张完整的流程图:

大模型究竟有什么作用?

  • 语言大模型(以文本数据进行训练)擅长自然语言处理(NLP)领域,能够理解、生成和处理人类语言,常用于文本内容创作(生成文章、诗歌、代码)、文献分析、摘要汇总、机器翻译等场景。大家熟悉的ChatGPT,就属于此类模型。

  • 音频大模型(以音频数据进行训练)音频大模型,可以识别和生产语音内容,常用于语音助手、语音客服、智能家居语音控制等场景。

  • 视觉大模型(以图像数据进行训练)擅长计算机视觉(CV)领域,可以识别、生成甚至修复图像,常用于安防监控、自动驾驶、医学以及天文图像分析等场景。

  • 多模态大模型(文本和图像都有)。整合并处理来自不同模态的信息(文本、图像、音频和视频等),可以处理跨领域的任务,例如文生图,文生视频、跨媒体搜索(通过上传图,搜索和图有关的文字描述)等。

大模型实际商业化?

目前,大大模型迟迟未商业化,热潮呈现“放缓”迹象;国内大模型厂家智谱、百川、零一万物、月之暗面、MiniMax、阶跃星辰都在找落地的场景;同时,字节跳动、阿里云开始大砸金币,导致大模型公司逐步出现分化,甚至有些企业正面临困局。

这个点就很好理解就是找应用场景and商业化方案;说白就是生存之战了;

大模型早起的理论观点就是找到应用场景,通过不断融资给予企业试错方向;大模型厂一开始就没有想明白如何商业化或者简单说根本没有考虑过如何商业化这个课题。

早期大家追求的可能就是技术比;曾有段子说中国AI竞争的尽头是「清华系VS浙大系」

2019年9月,《新财富》杂志就抛出了一个问题:清华姚班VS浙大竺院,谁是中国最牛AI创业班?

2024年,国内AI公司形成了指月之暗面、智谱AI、MiniMax、百川智能、阶跃星辰与零一万物,DeepSeek和面壁智能的格局。

这里面,月之暗面杨植麟、智谱AI张鹏、百川智能王小川都毕业于清华,面壁智能创始人刘知远是清华副教授。旷视科技CEO印奇是出自清华姚班,清华系占据了头部AI创业公司半壁江山都不为过。

投资圈认可的背景基本都是 AI圈的清华系、半导体圈的浙大系、机器人圈的哈工大系、新能源圈的中南系;学术歧视一直都存在的;AI时代最核心的资源,不是数据、算力、算法,而是人才。梁文锋就说:人才竞争,才是科技竞争的本质。

所以21年以前AI大模型更多的是追求所谓的“技术极致”。那个时候是不太考虑性价比,**加之当时 AI 四小龙总体的发展还是比较顺利,手上的资金也还蛮多技术派主导推进;技术派的人想过商业化但是没想那么久远;它们的思路就是规模增长速度和烧钱速度几乎同步就起来了占领市场。**本质是AI大模型商业化是一道难题谁都不能立马做出来选择无可厚非;其本质的原因在没有做通用任务场景商业化自然很难进行;

在AI四小龙和大厂积极投入AI领域后,均形成了从模型到平台,最终到应用和设备的全面布局。后面,智谱AI、零一万物、MiniMax、百川智能、阶跃星辰(注重在算力、数据、算法和系统这四大要素上综合月之暗面也混进来了;

AI四小龙,旷视科技、商汤科技、云从科技和依图科技主要聚焦在自动驾驶。以CV技术(计算机视觉)为主导,风头无两。商业化很难,**客户主要是B端企业和G端政府,**通过向它们提供人脸识别等AI解决方案来赚钱。项目制、周期长、成本高,最后在亏损的泥潭里出不来。

他们的思路都是靠算法驱动;从海康、大华等厂商采购摄像头,调试后加载自家算法,打包成一体化解决方案卖给客户。但是,海康、大华也是大厂人家也不傻,这俩两头赚自己就进来了,自已嵌入算法正式开始做了;

0****4

互联网行业重商业UE模型,都是平台双边经济,由生产者、平台、用户三者构成。生产者提供各类产品,平台负责分发给用户。形成强者越强的正向循环,有明显的增长飞轮。核心壁垒是生产者和用户构成的生态,平台几乎垄断了全部利润,而且生态垄断性极强,一旦形成,它难以打破。本质是流量变现,不依赖用户收入情况。

0****5

**但To B行业不同,它就是传统的卖软件模式就是SaaS模式摊平成本而已。**这种商业模式下,技术不值一提。只能挣用户的钱,这就严重依赖用户人群的收入情况。且和互联网行业高度重合,技术人才也高度重叠。人力成本极高只能采用互联网行业高举高打的策略来做传统制造业的事最后业绩泥潭也不是不能想象;

后面智谱AI、百川智能、月之暗面、MiniMax后面占尽风头但此时,大厂下场了,没有给创业公司留出时间差。大厂基本都是两手准备,一手自研,一手投资。

阿里自研大模型通义千问,还投资了场上几乎所有的头部项目——“大模型四小龙”+零一万物。腾讯投资了“四小龙”中的三家——Minimax、智谱AI、百川智能。美团收购了光年之外,还投资了智谱AI、月之暗面。

现在的四小龙也未必好过,靠API、云端私有化、本地私有化走TOB的路子;后面大模型降价战未必进入到舒适的领域;

  • 月之暗面面向to C。“Kimi智能助手”,靠打赏和付费模式,但这块的收入还很薄弱。且阿里在第一时间宣布,通义千问免费开放1000万字长文档处理功能这块TOC互联网逻辑本身也难跑通,平替太多了。

  • **MiniMax踩上AI陪伴做解决方案商和自行APP两条腿跑路。**其中,“星野” 月活用户达到数百万人。MiniMax还开发了一款AI虚拟人物聊天软件Talkie,主打出海;MiniMax深的互联网运营思路如,Talkie的AI角色定制,AI角色又与卡牌游戏机制相结合,这些卡牌不仅可以收藏,还能在平台上交易。让用户付费订阅,同时通过抽卡机制让用户充值,还在抽卡环节插入广告。

  • 百川智能通过开源开放API接口的方式进入ToB领域;

  • **这中间基本除了MiniMax目前阶段落地成功后基本都是TOB的老路子,虽然KIMITOC但是落地场景不明确;**大模型需要靠超级应用落地,如果应用跟不上,商业化的空间就无法打开,靠融资推动的商业模式也就难以为继。

    0****6

    具体解释如下

  • “MiniMax在海外很猛。营收中大部分来自聊天机器人社交应用Talkie,占领美国青少年市场。“全球C端用户达到了4000多万;用户黏性较高。

  • 智谱,有ToB又有ToC,Tob大模型企业一样,它的实际营收主要来自金融、互联网和能源。TOC有自己的APP;

  • 百川智能,在医疗模型和产品上发力;

  • 月之暗面,深度推理的AI搜索功能,强调推理。TOC陷入了与大厂如字节的流量战争,获客成本高、留存度低。用户规模和用户粘性,都还没有做出差异化。

  • 阶跃星辰,个人效率助手外,还冒泡鸭,主打休闲娱乐。

AI大模型的趋势?

①基础大模型(开源+闭源)加上各类专业模型、行业垂类模型主导;

**基础大模型行业的烧钱基本现在烧的格局出现了,绝非中小公司能玩得起。**根据财新的研究显示,训练基础大模型没有上亿美元根本上不了牌桌:高昂的研发人员工资(平均年薪接近百万美元),购买并清洗训练所需的数据(越来越稀缺),承担每天数十万美元的电费以及更为昂贵的算力费用,目前国内各家公司的融资也只是“勉强够用”。

且,大模型3个月就需要重新训练一次,训练一次成本约在3亿元;而一些多模态模型训练时间可能长达5~6个月,成本更高。同时,互联网大厂的入局打起价格战的序幕;

专业和垂类大模型呈现四处开花。具体落地还需要根据特定行业场景和客户需求进行预训练和精调。最大化提升大模型和大数据结合效率。目前看,AI大模型领域还很难形成个别大模型“赢者通吃”的局面,大概率会发展成为各类应用“百花竞放”的态势。

②AI大模型轻量化、小型化、灵活部署

主要是成本更高、资源消耗更大,且针对专业领域的效果不佳。轻量化的话不意味着功能差。是降低算力消耗和能耗,深入部署到终端为用户带来体验。

③更加偏向商业化

AI智能体作为AI应用的重要入口,2025年被认为是AI智能体的商用元年;可以应用在智能家居、自动驾驶等领域;从单一任务、单一场景的专用AI向跨模态、跨场景、跨任务、跨学科、跨行业领域的通用性AI转变。

④大模型同质化竞争现象严重。大多数大模型看上去十分相似,技术路线和应用场景高度重合。不少模型只是将国外开源模型简单包装,就对外宣称是自主研发。同时,在模型架构、训练算法以及底层芯片等关键领域,与国外有明显差距。中国大模型训练消耗的算力,有很大一部分被浪费在重复劳动上。

⑤大模型的演进将会经历从早期语言、视频、语音等各个模态独立发展,然后逐步融合,到彻底融合的过程。

有钱、有卡的大厂对人才的虹吸效应愈加明显。

字节跳动在通用语言、视频生成、语音对话、视觉理解等方面模型能力均已跨入国际第一梯队,综合能力对标GPT-4o。在上下文这样的功能点上,豆包大模型已经做到300万字窗口的长文本能力,每百万tokens处理延迟仅需15秒。推出了十几款AI应用;在B端,火山引擎掀起价格战,整个行业快速跟进,大模型API的价格一降再降。其实,价格战是伤敌一千自损八百

大模型六小龙中的五个是面向C端的产品**,基本都是免费以求积攒用户。TOB的话主要是提供定制化模型服务、开发与销售模型应用、提供模型训练和优化服务等赚的是辛苦费,**甚至有人表示如果平摊上模型训练、人力投入、后期维护等,根本不赚钱。最早他们是打算熬死一个是一个;后面互联网大厂加入后就失控了;

因此,首先降价的是深度求索和智谱AI,而后字节、阿里宣布下调价格,百度、科大讯飞和腾讯则相继宣布部分模型免费。除了智谱在跟进外,其他五虎基本上“弃赛”。在大模型市场的招投标争夺中,大厂占据上风;因为互联网大厂有强的GR和BR能力。

大模型基本取决于成本、AI Agent、多模态的落地;

首先,训练和部署大规模 AI模型对计算资源必须背负高昂的计算成本和运维成本。产业链上游面临一定需求结构调整的压力。国内大模型企业关现在“开源”似乎成了主流。但实际上,开源模型本身并不直接带来收益,但它们通常通过附加服务(如云计算、技术支持、培训、定制化开发等)来实现营利。公司可以通过商业化的方式提供增值服务,依托开源模型形成可持续的收入来源。闭源模型的商业化路径相对直接,企业通过授权许可、订阅服务、平台收费等方式实现营利。闭源模型能为公司带来高利润,因为客户需要为其使用权限和服务支付费用。目前企业无法做到盈者通吃的局面;

  • 开源-代码免费公布,靠社区捐赠存活。开发者可以自由下载、修改、分发,反馈软件Bug(软件缺陷或错误),提出优化建议可免费使用;

  • 闭源模型,指要付费且未公布技术细节的模型。

百度、OpenAI等希望大模型业务快速商业化的企业,选择了闭源;阿里云、Meta等靠云计算或广告业务盈利的企业,选择开源做大蛋糕。本质都没有错;

开源模好处是会吸引更多用户,问题是没有盈利模式,只有大公司烧得起。

其次,一条中间路线是开源、闭源并行,这条路很灵活。企业既能靠开源获取用户,又能靠闭源获取收入;**既给了开发者选择空间,企业自己也有容错空间。选这条路的企业是阿里云、腾讯云,以及Mistral Al、智谱AI、百川智能等AI创业公司。**用免费的开源模型吸引用户,引导用户使用尺寸更大、性能更强的闭源模型。

开源的长远价值是做大蛋糕。长期来看,最终还是会受益。大模型被政府、大中小企业、开发者等不同客户广泛使用时,可以帮公司快速迭代产品。

第三,闭源模型,这条路简单直接、逻辑清晰是适合初创公司;如,百度(文心大模型)等企业都选了这条路。企业使用大模型通常按API(应用程序编程接口)调用次数付费,但在中国,闭源模型短期内很难真正盈利。大模型价格战就让中小企业、创业公司亏不起只有大厂能存活;大厂是通过价格战抢占更多市场份额。比如阿里就是卖云服务的相关产品;

价格战之后,大模型调用已经进入“负毛利时代”。开源模型、闭源模型同时面临一个问题——大模型无法直接盈利。这轮价格战中,阿里云和字节跳动的火山引擎血最厚。阿里云能靠云盈利,火山引擎有字节跳动的广告业务输血。这就逼着大模型创业公司要么选择成为项目制模型开发公司,让创业公司定制模型的客户转而投向开源生态。

大模型创业公司也取决于新技术是否能找到新生态落地空间这也是为何现在AI硬件大火的原因;这有新的供应链、新的硬件载体、新的渠道和新的需求与用户来源大公司不擅长硬件供应链;

大模型=App需求洞察、功能设计定义流量和用户获取依然重要。

大模型的落地在情感陪伴或是娱乐内容生产是商业化的核心;重点在ToB市场面临的问题是,商业模式是否跑的通?做的越多受伤就越大。单纯的大模型没有价值,它要与应用场景结合。ToB市场,最终走向云和标准化服务。否则互联网公司主营业务,比如广告、电商、游戏本身就在用大模型,面向C端,自研模型可以自己用,可以用这个钱来补贴ToB市场的场景。一般公司烧钱烧不起;

现阶段头部大模型的估值门槛已接近200亿元上下,下一笔融资在哪?

狂堆参数的Scaling Law,目前是预训练的主流路径,同时也意味着高昂且持续的算力和数据投入。

对于尚未盈利的创业公司而言,继续堆参数炼模型,钱就是大难关;

这意味着,放弃预训练模型,因为,钱不知道什么时候能找到,资源紧缺的当下,最具性价比的决定。

下半年后半场,大厂主导力也在不断增强,字节、阿里、腾讯通过高薪和战略级招聘吸纳顶尖人才,

当资本泡沫逐渐消散,细分场景如何落实是商业化的定义是都离不开的出路;

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值