一点一滴NLP
文章平均质量分 56
NLP学习笔记
lanmengyiyu
github:https://github.com/lanmengyiyu
youtube:https://www.youtube.com/channel/UC5pExhZmSEsYwPOkvs3M5vA?view_as=subscriber
email:545277714@qq.com
展开
-
Encoder、Decoder和Encoder-Decoder
首先LLM有3种架构:Encoder-only、Decoder-only、encode-decode。原创 2023-11-28 14:16:27 · 1433 阅读 · 1 评论 -
Bert浅谈
首先,bert的创新点在于利用了双向transformer,这就跟openai的gpt有区别,gpt是采用单向的transformer,而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于,单向只跟当前位置之前的tocken相连,双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于,transformer对特征的提取能力比lstm要强得多。原创 2023-11-17 15:43:36 · 748 阅读 · 0 评论 -
Word2Vec浅谈
word2vec是Google团队在2013年发表的一篇paper,当时一经问世直接将NLP领域带到了一个新的高度,在2018年bert被提出之前,word2vec一直是NLP算法工程师追捧的预训练词向量模型。Word2Vec是轻量级的神经网络,其模型仅仅包括输入层、隐藏层和输出层,模型框架根据输入输出的不同,主要包括CBOW和Skip-gram模型。就是多几个输入的one-hot向量的问题。首先,输入层是一个one-hot向量,具体细节请看前面的博客。,再经过一个矩阵,把低维向量映射回高维,得到输出层。原创 2023-11-14 11:09:26 · 310 阅读 · 0 评论 -
百川大模型微调
这里要注意,github里的命令要将template改为baichuan2,lora_target改为W_pack。仿照格式,增加自己的数据集。原创 2023-11-10 14:17:59 · 807 阅读 · 1 评论 -
one-hot浅谈
如果在文本分类或者图片标签分类的过程中有3类,猫,狗,羊,最简单的标签我们可以让猫是0,狗是1,羊是2,但这就有一个问题,如果算距离的话,猫和狗的距离是1,但猫和羊的距离是2,不符合类别之前相互独立的特点。因此我们就可以用一个矩阵来表示:猫用[1,0,0]表示,狗用[0,1,0]表示,羊用[0,0,1]表示;这样相互之间的距离都相等。如果预测的向量[0.8,0.1,0.1]那我们就可以认为是猫。原创 2023-11-09 15:47:35 · 83 阅读 · 0 评论