
AI大模型
文章平均质量分 95
详细讲解大模型的内部架构以及微调方法...
小言从不摸鱼
欲买桂花同载酒,且惜时,望同游...
展开
-
【AI大模型】BERT GPT ELMo模型的对比
BERT: * 优点: * BERT使用了双向Transformer提取特征, 使得模型能力大幅提升. * 添加了两个预训练任务, MLM + NSP的多任务方式进行模型预训练. * 缺点: * 模型过于庞大, 参数量太多, 需要的数据和算力要求过高, 训练好的模型应用场景要求高. * 更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务.原创 2025-01-13 21:07:04 · 1838 阅读 · 30 评论 -
【AI大模型】探索GPT模型的奥秘:引领自然语言处理的新纪元
GPT是OpenAI公司提出的一种语言预训练模型.OpenAI在论文中提出GPT模型.OpenAI后续又在论文中提出GPT2模型.GPT和GPT2模型结构差别不大, 但是GPT2采用了更大的数据集进行训练.OpenAI GPT模型是在Google BERT模型之前提出的, 与BERT最大的区别在于GPT采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词.原创 2024-12-26 12:51:51 · 6379 阅读 · 125 评论 -
【AI大模型】深入GPT-2模型细节:揭秘其卓越性能的秘密
transformer模块的堆叠: * 最底层的transformer模块处理单词的步骤: * 首先通过自注意力层处理, 接着将其传递给前馈全连接层, 这其中包含残差连接和Layer Norm等子层操作. * 最底层的transformer模块处理结束后, 会将结果张量传递给第二层的transformer模块, 继续进行计算. * 每一个transformer模块的处理方式都是一样的, 不断的重复相同的模式, 但是每个模块都会维护自己的self-attention层和Feed Forward层的权重值.原创 2024-12-17 15:09:51 · 5447 阅读 · 146 评论 -
【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术
ELMo是2018年3月由华盛顿大学提出的一种预训练模型.ELMo的全称是Embeddings from Language Models.ELMo模型的提出源于论文。原创 2024-11-13 22:35:59 · 8903 阅读 · 208 评论 -
【AI大模型】大型语言模型LLM基础概览:技术原理、发展历程与未来展望
大语言模型 (英文:Large Language Model,缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等.原创 2024-11-07 10:20:27 · 7749 阅读 · 114 评论 -
【AI大模型】Transformer模型构建指南:轻松掌握核心技术
通过本专栏的博文,我们已经完成了所有组成部分的实现, 接下来就来实现完整的编码器-解码器结构.原创 2024-11-01 08:36:50 · 1649 阅读 · 87 评论 -
【AI大模型】深入Transformer架构:输入和输出部分的实现与解析
因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.原创 2024-10-21 10:08:32 · 6028 阅读 · 211 评论 -
【AI大模型】深入Transformer架构:解码器部分的实现与解析
由N个解码器层堆叠而成每个解码器层由三个子层连接结构组成第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接说明:解码器层中的各个部分,如,多头注意力机制,规范化层,前馈全连接网络,子层连接结构都与编码器中的实现相同. 因此这里可以直接拿来构建解码器层.原创 2024-10-18 13:17:03 · 2666 阅读 · 228 评论 -
【AI大模型】初识LangChain:功能强大的语言模型框架
LangChain由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言,GPT3.5、GPT4是LLMs最先进的代表,国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。原创 2024-10-16 10:40:04 · 4766 阅读 · 142 评论 -
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
在Transformer中前馈全连接层就是具有两层线性层的全连接网络。前馈全连接层的作用是考虑注意力机制可能对复杂过程的拟合程度不够, 通过增加两层网络来增强模型的能力.原创 2024-10-07 09:22:10 · 7744 阅读 · 241 评论 -
【AI大模型】BERT模型深度解析:自然语言处理的新里程碑及其应用探索
优点:BERT使用双向transformer,在语言理解相关的任务中表现很好。缺点:输入噪声:BERT在预训练过程中使用【mask】符号对输入进行处理,这些符号在下游的finetune任务中永远不会出现,这会导致预训练-微调差异。而AR模型不会依赖于任何被mask的输入,因此不会遇到这类问题。更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务。原创 2024-09-25 23:17:34 · 1503 阅读 · 143 评论 -
【AI大模型】深入Transformer架构:编码器部分的实现与解析(上)
编码器部分:* 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接掩代表遮掩,码就是我们张量中的数值,它的尺寸不定,里面一般只有1和0的元素,代表位置被遮掩或者不被遮掩,至于是0位置被遮掩还是1位置被遮掩可以自定义,因此它的作用就是让另外一个张量中的一些数值被遮掩,也可以说被替换, 它的表现形式是一个张量.原创 2024-10-02 08:56:15 · 6736 阅读 · 203 评论 -
【AI大模型】ChatGPT模型原理介绍(下)
2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are Few-Shot Learner”《小样本学习者的语言模型》.通过论文题目可以看出:GPT-3 不再去追求那种极致的不需要任何样本就可以表现很好的模型,而是考虑像人类的学习方式那样,仅仅使用极少数样本就可以掌握某一个任务,但是这里的 few-shot 不是像之前的方式那样,使用少量样本在下游任务上去做微调,因为在 GPT-3 那样的参数规模下,即使是参数微调的成本也是高到无法估计。原创 2024-09-16 10:53:20 · 6414 阅读 · 194 评论 -
【AI大模型】ChatGPT模型原理介绍(上)
ChatGPT 是由人工智能研究实验室 OpenAI 在2022年11月30日发布的全新聊天机器人模型, 一款人工智能技术驱动的自然语言处理工具. 它能够通过学习和理解人类的语言来进行对话, 还能根据聊天的上下文进行互动, 真正像人类一样来聊天交流, 甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务.。原创 2024-09-13 10:14:19 · 9335 阅读 · 182 评论 -
【AI大模型】LLM主流开源大模型介绍
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。目前,市面上已经开源了各种类型的大语言模型,本章节我们主要介绍其中的三大类...原创 2024-09-19 09:57:16 · 4087 阅读 · 178 评论