一点一滴NLP_lanmengyiyu的博客-CSDN博客

一点一滴NLP

关注

文章平均质量分 56

NLP学习笔记

关注数：文章数：5 文章阅读量：3381 文章收藏量：17

作者: lanmengyiyu

github:https://github.com/lanmengyiyu youtube:https://www.youtube.com/channel/UC5pExhZmSEsYwPOkvs3M5vA?view_as=subscriber email:545277714@qq.com

展开

Encoder、Decoder和Encoder-Decoder

首先LLM有3种架构：Encoder-only、Decoder-only、encode-decode。

原创 2023-11-28 14:16:27 · 1433 阅读 · 1 评论
Bert浅谈

首先，bert的创新点在于利用了双向transformer，这就跟openai的gpt有区别，gpt是采用单向的transformer，而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于，单向只跟当前位置之前的tocken相连，双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于，transformer对特征的提取能力比lstm要强得多。

原创 2023-11-17 15:43:36 · 748 阅读 · 0 评论
Word2Vec浅谈

word2vec是Google团队在2013年发表的一篇paper，当时一经问世直接将NLP领域带到了一个新的高度，在2018年bert被提出之前，word2vec一直是NLP算法工程师追捧的预训练词向量模型。Word2Vec是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，模型框架根据输入输出的不同，主要包括CBOW和Skip-gram模型。就是多几个输入的one-hot向量的问题。首先，输入层是一个one-hot向量，具体细节请看前面的博客。，再经过一个矩阵，把低维向量映射回高维，得到输出层。

原创 2023-11-14 11:09:26 · 310 阅读 · 0 评论
百川大模型微调

这里要注意，github里的命令要将template改为baichuan2，lora_target改为W_pack。仿照格式，增加自己的数据集。

原创 2023-11-10 14:17:59 · 807 阅读 · 1 评论
one-hot浅谈

如果在文本分类或者图片标签分类的过程中有3类，猫，狗，羊，最简单的标签我们可以让猫是0，狗是1，羊是2，但这就有一个问题，如果算距离的话，猫和狗的距离是1，但猫和羊的距离是2，不符合类别之前相互独立的特点。因此我们就可以用一个矩阵来表示：猫用[1,0,0]表示，狗用[0,1,0]表示，羊用[0,0,1]表示；这样相互之间的距离都相等。如果预测的向量[0.8,0.1,0.1]那我们就可以认为是猫。

原创 2023-11-09 15:47:35 · 83 阅读 · 0 评论

一点一滴NLP

作者: lanmengyiyu

Encoder、Decoder和Encoder-Decoder

Bert浅谈

Word2Vec浅谈

百川大模型微调

one-hot浅谈