普通人如何成为AI产品经理？

最新推荐文章于 2024-08-22 10:37:37 发布

AI学习不迷路

最新推荐文章于 2024-08-22 10:37:37 发布

阅读量790

点赞数 24

文章标签：人工智能产品经理 chatgpt llama AI产品经理转行职场和发展

本文链接：https://blog.csdn.net/qkh1234567/article/details/140490698

版权

HI 大家好本人，8年AI产品经理，本系列为近期本人学习及工作沉淀。希望通过简单、直白的梳理，对AI有兴趣/希望转行的同学有所帮助。

本文为此系列引言，主要为各技术点的要点汇总，旨在普及基础技术知识点不含产品观点，对LLM了解的同学可跳过。

什么是大语言模型（LLM）

顾名思义，大语言模型的特点是规模庞大，可能拥有十亿以上的参数。由于研究方向不同，在前两年出现以自然语言理解任务和自然语言生成类任务的两条技术线。

自然语言理解任务

即包括文本分类、句子关系判断等，本质上是分类任务。其技术以Bert为代表。Bert(Bidirectional Encoder Representation from Transfomer)采用双向Transformer Encoder架构。Bert的优点是可以更好地理解上下文信息，缺点是长文本处理不够稳定。

自然语言生成类任务

可给定输入文本，要求对应模型生成一串输出的模型。其技术以GPT为代表。GPT（Generative Pre-trained Transfomer)使用单向Transfomer Decoder结构。GPT的优点是训练过程相对简单，可以生成自然流畅的文本。

从两类任务来看，如果仅用自然语言理解模型，可能无法很好地处理生成任务。但一个LLM 生成模型是可以兼顾两个任务的处理，所以主流更希望推进的应用方向是结合LLM生成模型来做落地。

附图：Transformer介绍

了解Transformer

市场大语言模型有哪些

（数据来源：机器之心）

在生成式任务方向按照模型结构的不同可以分为两大类

基于[Causal decoder-only](https://www.zhihu.com/search?q=Causal decoder-only&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={“sourceType”%3A"answer"%2C"sourceId"%3A3331705933}) （因果解码器）的Transformer结构

如 GPT-4、Claude 2、LLaMA2等大模型

基于Prefix-decoder-only （前缀解码器）的Transformer结构

如Chat GLM-6B（清华大学提出的支持中英双语问答的对话语言模型）

那么两种结构的区别是什么呢？

相同训练的情况下，[Prefix decoder](https://www.zhihu.com/search?q=Prefix decoder&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={“sourceType”%3A"answer"%2C"sourceId"%3A3331705933})用到的tokens数量更少，训练效率较低，效果相对较差（训练时Causal decoder结构会在所有Token上计算损失，而Prefix decoder只会在输出上计算损失，不计算输入的损失）

除此维度外，模型基础信息（训练数据、数据量、模型参数量、词表大小等）会成为主要区分维度，如下图：