WHY-233-CSDN博客

原创 NLP基础知识2【各种大模型的注意力】

现在的MQ-A、GQ-A、KV-cache本质上都是复用、缓存KV矩阵，用于缓解内存和内存墙（缓存大小不足，需要频繁访存）的，现在较少有人能讲清楚为什么要存储KV而不是QKV或者Q？

2024-07-25 16:25:00 603

原创 NLP基础知识4【CRF】

x1x2.....xnyi−1yi1tjsk。

2024-07-24 09:59:11 890

该数据集针对不同需求，发布了多个子版本：en（英文数据，806G），en.noclean（未清洗的原始数据，6T），realnewslike（仅包含 RealNews 涉及的领域的内容，36G），webtextlike（仅包含来自 OpenWebText 中URLs 的内容，17G）和 multilingual （多语言数据，38T）。该数据集按照时间顺序进行了训练集和测试集的划分，其中2016 年 12 月至2019 年 3 月的新闻划分为训练数据，2019 年 4 月的新闻划分为测试数据。

2024-07-09 10:50:28 1435

原创大模型知识大全1-基础知识【大模型】

历史我就不写了，简单说说大模型的应用和特点。能力和知识。其中绝大部分人利用了大模型中蕴含的知识和总结的能力，当做全能搜索引擎使用，我认为这仅仅是大模型使用的皮毛，大模型拥有的能力在微调后可以胜任大部分人类的工作，在大部分工作中可以当做人来使唤。具有较强的通用任务解决能力具有较好的复杂任务推理能力具有较强的人类指令遵循能力(chat模型)具有较好的人类对齐能力(RLHF)具有可拓展的工具使用能力。

2024-07-09 09:32:27 1094

原创大模型相关代码5 -- 基础激活函数【手撕基础代码】

一种基于高斯分布的激活函数，用在GPT3中。是针对relu在0点不可导的问题设计的，可以比relu提供更高性能。公式中的erf代表高斯分布Gauss Error。结合Swish和GLU,对输入的X进行W1 W2两次线性变换，将其中的一个结果输入Swish后两元素相乘。swish是一种或平滑连续的激活函数，在Transformer中应用广泛。通过门来控制信息的流动，选择性的传递信息。

2024-07-01 18:07:14 365

原创大模型相关代码4 -- 基础激活函数【手撕基础代码】

它保留了 step 函数的生物学启发（只有输入超出阈值时神经元才激活），不过当输入为正的时候，导数不为零，从而允许基于梯度的学习（尽管在 x=0 的时候，导数是未定义的）。其输出不是以0为中心而是都大于0的（这会降低权重更新的效率），这样下一层的神经元会得到上一层输出的全正信号作为输入，所以Sigmoid激活函数不适合放在神经网络的前面层而一般是放在最后的输出层中使用。在一般的二元分类问题中，tanh 函数用于隐藏层，而 sigmoid 函数用于输出层，但这并不是固定的，需要根据特定问题进行调整。

2024-07-01 16:37:07 746

原创大模型学习笔记3【大模型】LLaMA学习笔记

该仓库的中包含的大模型。Chinese-LLaMA-7B是在原版LLaMA-7B的基础上，在20GB的通用中文语料库上进行预训练。Chinese-LLaMA-Plus-7B是在原版LLaMA-7B的基础上，在120GB的通用中文语料库上进行预训练。在原模型的基础上，扩充vocab词表，使用中文数据进行“继续训练”，并使用中文指令数据进行微调。完全使用LoRA进行预训练和微调，需要原版的LLaMA模型。开源中文LLaMA模型，和指令微调的Alpaca大模型。LoRA居然能有这么强……本地GPU、CPU部署。

2024-07-01 15:36:43 986

原创大模型学习笔记2【大模型】

文章目录学习内容1.选择基座模型2.验证3.微调4.训练数据5.Instruction Tuning6.训练7.测试8.部署学习内容介绍流程1.选择基座模型基座模型对结果比较重要，一般选择的流程：首先关注整体性能（打榜），其次关注所需任务的评分，一般选用Chat模型，节省训练对话所需的语料和成本。目前中文表现较好的是Yi,ChatGLM目前中文表现较好的是LLaMA2.验证用手上的数据、任务的数据验证一下哪个模型最好如果手上没有数据，可以寻找相关的任务/领域通用数据如果效果比较

2024-06-28 17:13:48 368

原创大模型相关代码3 -- Transformer【手撕基础模型】

O为最终输出变幻矩阵。

2024-06-28 15:59:32 1002

原创大模型相关代码2 -- 多头注意力机制【手撕基础模型】

O为最终输出变幻矩阵。

2024-06-27 22:46:53 865

原创大模型相关代码1 -- 注意力机制【手撕基础模型】

【代码】大模型相关代码1 -- 注意力机制【手撕基础模型】

2024-06-27 22:39:27 598

原创 NLP基础知识1【BERT】

NLP基础知识1【BERT】BERT之前的语言编码one-hot的问题word2vec存在的问题elmo存在的问题BERT未完待续总结整理BERT和BERT以前预训练模型的知识BERT之前的语言编码one-hot的问题维度灾难：由于将文本按01进行编码，维度过高，会遇到维度灾难的困扰，妹子词语的维度是语料库词典的长度。向量离散、稀疏问题：因为one-hot中，句子向量中，如果词出现为1，没出现为0，但是由于维度远远大于句子长度，所以句子中的1远小于0。词语的编码是随机的，不能表示词之间的联

2024-06-27 19:08:21 303