NLP
fu_gui_mu_dan
这个作者很懒,什么都没留下…
展开
-
GRU门控循环单元
GRU视频链接Zt—更新门Rt—重置门控制保存之前一层信息多,还是保留当前神经元得到的隐藏层的信息多。Bi-GRUGRU比LSTM参数少。原创 2023-09-06 14:58:25 · 509 阅读 · 0 评论 -
LSTM基础
上一时刻的输出+这一时刻的输入。过去,不过去,过去一部分。原创 2023-09-05 21:38:59 · 474 阅读 · 0 评论 -
神经网络NLP基础 循环神经网络 LSTM
sequence的length是多少,lstm的cell的数量就是多少。用的时候,只关心token的输入,以及hidden state就好了。原创 2023-09-01 20:02:30 · 1004 阅读 · 0 评论 -
VSCode中,the debugger in the python extension no longer 3.7
VSCode中,the debugger in the python extension no longer 3.7。原创 2023-06-11 10:07:48 · 1593 阅读 · 0 评论 -
seq2seq,attention,transformer(keras代码实现)
score是和EO一样维度的向量。一般使用Bahdanau注意力。context最后是一个向量。原创 2023-06-05 19:58:34 · 75 阅读 · 0 评论 -
OneHot笔记
将离散数据整数化,其值也可看做欧式空间中某点的坐标。原创 2023-06-05 09:41:04 · 51 阅读 · 0 评论 -
source_ids += [tokenizer.unk_token_id for x in dfg]
通过反转词汇表来获得特殊tokens的索引。原创 2023-01-18 19:57:18 · 2099 阅读 · 0 评论 -
tokenizer三种写法
tokenizer_lambda是一个匿名函数。原创 2023-01-17 09:47:04 · 179 阅读 · 0 评论 -
[:, :,None]和unsqueeze
masked_position = torch.unsqueeze(masked_position, 2)和。masked_position = masked_position[:, :,None] 等价。原创 2023-01-11 17:50:14 · 124 阅读 · 0 评论 -
神经网络语言模型笔记
神经网络语言模型笔记。原创 2022-10-22 11:25:29 · 62 阅读 · 0 评论 -
one-hot笔记
余弦相似度,计算两个向量在空间中的距离,距离越近越相似。独热编码相似度都是0,非常大的缺陷原创 2022-10-22 09:51:15 · 77 阅读 · 0 评论 -
统计语言模型笔记
一个任务P,两句话哪个出现概率大。原创 2022-10-22 09:06:47 · 130 阅读 · 0 评论 -
词的向量化笔记
词集法(one-hot):统计文档总词数建立长度为N的字典,将单词表示为一个N维高度稀疏的向量,词对应位置元素值为1,其他全为0;词的静态表征,不能解决同义词问题,如水果中的“苹果”和苹果公司的“苹果”,词向量表示是一样的,而实际上这两词的意思完全不一样。词袋法:统计文档总词数N,将单词表示为一个N维高度稀疏的向量,词对应位置元素为词在该篇文档中的词频,其他位置元素值为0;1)将高度稀疏的one-hot词向量映射为底维度的语义向量,有效解决了one-hot词向量高稀疏、高冗余的缺点;原创 2022-10-14 13:19:13 · 233 阅读 · 0 评论 -
BERT笔记
init初始化函数中有一个ignore_index,忽视哪些索引,默认是负一百,补零的位置不参与计算,可以让没有被mask的位置不参与到损失函数的计算,nsp下一个句子预测,挑选样本的时候,不同document片段作为负样例,相同document连续片段作为正样例,另一个预训练任务是MLM任务,把整个输入句子中的部分词汇掩盖住,让模型去预测当前的词汇,红色一个掩盖的词汇,1,7,13,6字符对应的索引,也就是把字符转化为数字之后,它是哪些数字,1就是CLS符号,每个embedding是768个维度,原创 2022-10-13 21:41:05 · 230 阅读 · 0 评论 -
位置编码笔记
提前弄些位置。原创 2022-10-03 22:01:59 · 79 阅读 · 0 评论 -
word2vec,CBOW和Skip-gram
NNLM神经语言模型:重点是预测下一词,双层感知机softmax(w2tanh(w1(xQ)+b1)+b2)CBOW和Skip-gram两种架构的重点都是得到一个Q矩阵。Skip-gram:多个老师告诉一个学生,Q矩阵怎么变。CBOW:一个老师告诉多个学生,Q矩阵怎么变。给出一个词的上下文,得到这个词。给出一个词,得到这个词的上下文。原创 2022-09-29 10:50:32 · 217 阅读 · 0 评论 -
预训练语言模型
模型参数不再是随机初始化的,而是通过一些任务进行预先训练,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。原创 2022-06-08 17:34:31 · 399 阅读 · 0 评论 -
文本嵌入层的作用
无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示,希望在这样的高维空间捕捉词汇间的关系。原创 2022-06-04 10:51:59 · 240 阅读 · 0 评论 -
负采样负采样
判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。原创 2022-06-02 17:54:30 · 98 阅读 · 0 评论 -
Transformer笔记
Transformer原创 2022-06-01 21:48:22 · 53 阅读 · 0 评论 -
多头注意力机制
d_model每一个字,用多少向量维度表示。转载 2022-05-23 18:45:15 · 486 阅读 · 0 评论 -
embedding
因为输入是一个个的词,或者叫词源,叫token,需要把它映射成一个向量,embedding给任何一个词,学习一个长为d的向量来表示它。原创 2022-05-23 08:47:02 · 84 阅读 · 0 评论 -
为什么需要mask
在注意力机制里面,每一次能看到整个完整的输入,我们要避免这个情况发生。也就是说,在解码器训练的时候,在预测第t个时刻的输出的时候,不应该看到t时刻以后的那些输入。通过一个带掩码的注意力机制,从而保证预测和训练的时候行为是一致的。...原创 2022-05-22 20:47:41 · 173 阅读 · 0 评论 -
抽象语法树与DAG
原创 2022-05-21 18:02:04 · 412 阅读 · 0 评论