在上一章节为大家介绍了 “大模型的不足与解决方案” ,这一小节呢为大家针对AIGC的相关产业进行一个拆解,以及相关的一些专业名词做出解释,方便让大家理解整个大模型的应用开发,了解自己目前的行业所处在什么样的位置,甚至于说对这个产业的了解,如果想要投身到AIGC这个行业,对今后的职业发展有一个大概的认知。
AIGC上游产业链 - 基础层
将AIGC的整个产业从结构上进行拆分的话,可以分为 “上游”、“中游”、“下游” 这三大块儿,上游也就是基础层,主要包含了三个部分:算力、数据与算法,是AI的最根本的部分,也是过去AI集中的最多的部分。
算力又分为AI芯片、智能服务器和云服务不同场景,最出名的有 “英伟达”、“AMD”,包括国内比较出名的 “百度”、“阿里”、“腾讯” 这些非常知名的云服务厂商,都是为算力基础提供服务的。从前面章节的介绍,我们都知道大模型都是基于 Transformer架构 实现的,这种架构的特点就是需要大量的数据、大量的算力来进行预训练。所以 算力是刚需 ,这也是为什么近一年以来英伟达的股票一直疯涨的原因,因为它基本上是基础设施力的必选项。
数据是从2017年大数据广泛开始流行之后,变成了新时代的石油的。从上图的 数据基础 也可以看出基本分成三块:AI基础数据服务、向量数据库、数据集 。AI基础数据服务这一块做的就是数据处理、刚性数据或者是数据众包服务的厂商,其中的代表就是 百度智能云的数据众包 ;向量数据库 其实是在大模型出现之后才火起来、才开始被广泛关注的一个赛道。因为整个大模型的发展其实都是基于向量计算实现的,向量数据的存储优势、查询优势也是大模型选择向量数据库作为过程存储的优势之一,也就带动了这个赛道的发展;数据集就是我们之前介绍的对大模型进行训练时需要做的预训练模型,使用大量的数据先将神经网络训练出来,这个预训练模型就需要很多公开的数据集支撑,其中最著名的就是斯坦福大学李飞飞教授的 ImageNet ,这个数据集可以算得上是世界上第一个比较大型的公共数据集,现在也是目前图像分类里面众多大模型必选的数据集合;
算法这一块儿就不多说了,类似于谷歌的非常著名算法 TensorFlow ,然后包括 Pytorch 这种知名的算法框架。除了众多知名的 AI算法框架 之外,更是包含了 AI开发平台 ,包括 百度、阿里、腾讯 等知名厂商,现在都已经开放了自己的AI开发平台。
整体来说,这些都是 AIGC的基础层领域,对于我们应用级开发者而言,距离我们有些距离,但是这些基础性的知识,还是必须要了解的。
AIGC中游产业链 - 大模型层与工具层
AIGC产业的中游主要包含了两大块儿,一个是AIGC的 大模型层 ,另一个就是 工具层 。从上图中我们可以看到,大模型层主要对应的也是两大块儿,一块儿是 通用模型 ,另一块是 行业模型 (也就是垂直模型),其实对应的就是上一章节我们介绍的大模型不足地方的解决方案之一。
通用模型就不再做过多的介绍了,像 OpenAI、腾讯的混元、百度的文心、阿里的通义千问,还有 MOSS 、ChatGLM 这些都是通用模型,解决的都是通用的问题。在这些通用模型中又分为 开源 和 闭源 ,闭源 的厂商是不开放它们的模型的,所以我们就不知道它们模型的底模数据究竟是怎样的。开闭源呢都有各自的优势,闭源的模型相对来说一般精度都会更高、更智能一些,毕竟如果我们想要使用的话,是需要将我们的数据传输给对方的,而开源模型完全是可以本地化部署的。
在此之上呢就是 行业垂直模型 ,可以根据行业、根据业务去做很多的数据调教和微调,亦或者是做数据的二次训练,就形成了现在这种千行百业的大模型。
在右侧的这部分就是AIGC的工具层,这里呢就包含了两块儿,其中之一就是我们要重点讲的内容 AI Agent 。Agent 里面的工具就包括了 AutoGPT ,熟悉AI领域的应该都听过,这工具2023年上半年是AIGC领域的爆款,后面的 LangChain 也一样,不仅仅是一款非常火爆的开源大模型,LangChain 这家公司在今年的4月16号入选了 2024福布斯AI 50强榜单 ;另一部分就是 模型平台与模型服务,这一领域呢就是做一些模型开发的平台,国内的厂商都在做,比如说 百度的千帆大模型平台、阿里的灵积大模型平台、腾讯的混元大模型平台 。
AIGC下游产业链 - 应用层
再往下就是AIGC的下游产业链,也就是 应用层 。这一层呢,也包含了几大块儿,分别是 内容消费赛道 、创作工具赛道 和 企业服务 。
内容消费 这一块儿主要是指 生成式AI 在平台性质的一个应用,比如说像抖音、快手、视频号、小红书等短视频平台上的应用,主要是内容的生成。如果你是一个内容创作者,就可以利用 AI 去创作自己的内容,我曾经就利用过 腾讯智影 给自己做过一期数字人的口播内容,数据还非常的不错。
创作工具 赛道实际上是服务于 内容消费 的,最著名的就是 Midjourney ,尽管很出名、但是它没有自己的APP,而是长在平台上面。
企业服务 这一领域细分的比较多,比如说按行业会有各种各样的应用,金融、零售、政务、医疗 、甚至是 企业内部 都有这一块儿的影子 。包括说有一些模型提供商在 **AIGS ** 领域 、也就是 AIGC + 软件生成 这一块儿也都在尝试去做出一点东西来,像微软、亚马逊他们也都在做。
这几张图呢几乎可以把整个行业的全景一览无余,那么我们的位置在哪里?我们所处的位置就在 AI工具层 ,也就是 AI Agent 这个层面,算得上是一个承上启下的位置。当然了,在上层的应用中也可以做很多事情,这也是我们目前对自己位置的一个认知。也就是说对于我们应用级开发者而言,中下游才是我们发挥作用的地方,在上游我们能做的事情比较好,这也是为什么在大模型出现之前,很多AI领域的开发者都觉得自己好像做不了太多的东西。因为毕竟一说到找一个AI岗位,铁定的就是算法工程师,可能就和应用级的开发者不是特别的匹配。
AIGC产业链常见的名词表
对整体的行业有了一个清晰的认知后,我们可以再看一些名词表,这里给大家整理的是一些比较常见的名词。由于时间的关系呢,也不会说一个一个的给大家解释,就挑一些给大家做讲解。
比如说 多模态 ,多模态 指的是什么呢?在我们刚开始使用 ChatGPT 的时候,只能像是一个聊天机器人那种用文本的形式与我们进行对话;使用 Midjourney 和 Stable Diffusion 去生成图片的时候只能是文生图或者是图声文,也仅仅是这两种形态。那么所谓的多模态,其实指的就是大模型进化的比较完善的形态,也就是一套模型支持各种各样的形态。比如说生成文字或者图像,图到文、文到图,甚至于说文到音频、音频到文字等场景都可以实现,目前很多很多大模型其实都可以实现了。比如说 OpenAI ,百度的 文心 、包括腾讯的 混元 也在今年5月份的时候宣布开源支持多模态视觉的生成。
然后就是 Stable Diffusion ,也就是我们平时简称的 sd ,一个开源的图像生成的大模型。它使用的是生成式对抗生成神经网络,简单来说就是一种神经网络类型,它的思路很简单,就是猫捉老鼠、或者是小偷和警察的游戏,一方生成、另一方进行验证。比如说用户输入的提示词指令是生成一个美女,第一次生成了一个模糊的美女,验证的一方认为生成的模糊美女根本就不像是一个人、直接就pass掉;第二次又生成一个模糊的美女,但是鼻子有点歪,还是pass掉;直到验证的一方,在生成的图片上检查不出任何是假的地方,这个时候生成的图片就会被通过了,这就是生成式对抗神经网络的原理,也是图像生成领域最常用的神经网络。
Few-shot、One-shot、Zero-shot 这些又是什么意思呢?Few-shot 就是很少的案例、One-shot 是一个案例、Zero-shot 就是没有案例,这里的案例指的就是我们做提示词工程的时候,或者是在于一些AI进行对话的时候,如果我们可以提供一个式例的话,这就是 One-shot ;提供很少式例就是 Few-shot、没有式例就是 Zero-shot 。
最后就是我们的一个主题 AI Agent ,从词面上来看的话,它是 AI 代理 的意思,目前国内的很多翻译也都是翻译成 AI 代理 。其实,AI Agent 是利用 AI 或者是大模型的能力来实现 AI 在代替人类一些操作上的一种物体,也叫智能体,也就是严格意义的翻译过来的话,应该是 人工智能体 ,也就是模拟人类的行为。在过去的软硬件层面,我们可以将一个机器人做成人形的,甚至可以让它发出声音、模拟人走路的动作,但是却缺少可以思考的大脑。就比如说早期的人工智能 - 深蓝,它就只会下象棋。但是 Agent 结合了大模型的能力之后,就有可能会做很多事情,所以这就是 AI 大概的一个概念。
像是后面的 咒语、吟唱、炼丹、炸炉 这些,基本上都是国内开源模型社区的黑话。咒语 就是 Prompt ,也就是提示词;所谓的 吟唱 ,就是 开始生成 ,至于 炼丹 的意思,实际上是在开源底模的基础上去做自己的模型训练;炸炉 就是模型训练失败。基本上这些都是比较常见的一些AIGC领域的名词,这里就不做过多的解释了,如果说大家有疑问或者是兴趣的话,欢迎后续的多多交流。