AI大模型
文章平均质量分 95
详细讲解大模型的内部架构以及微调方法...
小言从不摸鱼
欲买桂花同载酒,且惜时,望同游...
展开
-
【AI大模型】大型语言模型LLM基础概览:技术原理、发展历程与未来展望
大语言模型 (英文:Large Language Model,缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等.原创 2024-11-07 10:20:27 · 1120 阅读 · 86 评论 -
【AI大模型】Transformer模型构建指南:轻松掌握核心技术
通过本专栏的博文,我们已经完成了所有组成部分的实现, 接下来就来实现完整的编码器-解码器结构.原创 2024-11-01 08:36:50 · 1497 阅读 · 84 评论 -
【AI大模型】深入Transformer架构:输入和输出部分的实现与解析
因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.原创 2024-10-21 10:08:32 · 3675 阅读 · 208 评论 -
【AI大模型】深入Transformer架构:解码器部分的实现与解析
由N个解码器层堆叠而成每个解码器层由三个子层连接结构组成第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接说明:解码器层中的各个部分,如,多头注意力机制,规范化层,前馈全连接网络,子层连接结构都与编码器中的实现相同. 因此这里可以直接拿来构建解码器层.原创 2024-10-18 13:17:03 · 2547 阅读 · 226 评论 -
【AI大模型】初识LangChain:功能强大的语言模型框架
LangChain由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言,GPT3.5、GPT4是LLMs最先进的代表,国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。原创 2024-10-16 10:40:04 · 3365 阅读 · 141 评论 -
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
在Transformer中前馈全连接层就是具有两层线性层的全连接网络。前馈全连接层的作用是考虑注意力机制可能对复杂过程的拟合程度不够, 通过增加两层网络来增强模型的能力.原创 2024-10-07 09:22:10 · 6488 阅读 · 237 评论 -
【AI大模型】BERT模型深度解析:自然语言处理的新里程碑及其应用探索
优点:BERT使用双向transformer,在语言理解相关的任务中表现很好。缺点:输入噪声:BERT在预训练过程中使用【mask】符号对输入进行处理,这些符号在下游的finetune任务中永远不会出现,这会导致预训练-微调差异。而AR模型不会依赖于任何被mask的输入,因此不会遇到这类问题。更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务。原创 2024-09-25 23:17:34 · 1424 阅读 · 143 评论 -
【AI大模型】深入Transformer架构:编码器部分的实现与解析(上)
编码器部分:* 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接掩代表遮掩,码就是我们张量中的数值,它的尺寸不定,里面一般只有1和0的元素,代表位置被遮掩或者不被遮掩,至于是0位置被遮掩还是1位置被遮掩可以自定义,因此它的作用就是让另外一个张量中的一些数值被遮掩,也可以说被替换, 它的表现形式是一个张量.原创 2024-10-02 08:56:15 · 5946 阅读 · 202 评论 -
【AI大模型】ChatGPT模型原理介绍(下)
2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are Few-Shot Learner”《小样本学习者的语言模型》.通过论文题目可以看出:GPT-3 不再去追求那种极致的不需要任何样本就可以表现很好的模型,而是考虑像人类的学习方式那样,仅仅使用极少数样本就可以掌握某一个任务,但是这里的 few-shot 不是像之前的方式那样,使用少量样本在下游任务上去做微调,因为在 GPT-3 那样的参数规模下,即使是参数微调的成本也是高到无法估计。原创 2024-09-16 10:53:20 · 5804 阅读 · 193 评论 -
【AI大模型】ChatGPT模型原理介绍(上)
ChatGPT 是由人工智能研究实验室 OpenAI 在2022年11月30日发布的全新聊天机器人模型, 一款人工智能技术驱动的自然语言处理工具. 它能够通过学习和理解人类的语言来进行对话, 还能根据聊天的上下文进行互动, 真正像人类一样来聊天交流, 甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务.。原创 2024-09-13 10:14:19 · 8280 阅读 · 182 评论 -
【AI大模型】LLM主流开源大模型介绍
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。目前,市面上已经开源了各种类型的大语言模型,本章节我们主要介绍其中的三大类...原创 2024-09-19 09:57:16 · 3564 阅读 · 177 评论