![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
文章平均质量分 58
##
石头猿rock
这个作者很懒,什么都没留下…
展开
-
11.3面试相关
贝叶斯优化算法和网格搜索不同的是:网格搜索在测试一个新点的时候会忽略前一个点的信息,而贝叶斯优化会充分利用之前的信息,贝叶斯优化是通过对进行学习,来找到使目标函数达到全局最优的,他学习目标函数的形状的方法是:首先根据先验信息假设一个目标函数,然后采样一个新点去测试目标函数,再利用得到的信息去更新这个先验分布,最后算法测试是通过后验分布给出全局最值最有可能出现的点。原创 2022-11-03 22:21:44 · 321 阅读 · 0 评论 -
11.1面试相关
指针网络就是生成一个指向输入中单词的概率分布,decoder端每个时刻的输入作为query,encoder端提供key,value,然后计算关于输入中每个单词的注意力权重,并将这个注意力权重作为概率分布;然后学习一个0-1之间的权重,将这个概率分布和指向词表的概率分布进行相加这使得模型更加倾向于选择输入中的词。原创 2022-11-02 16:56:25 · 401 阅读 · 0 评论 -
关于batch_size的理解
一次训练所选取的样本数;batch_size的大小影响内存的使用情况,同时也影响模型的优化程度和速度。1.并行化提高了内存的利用率,提高了训练速度2.使得单个epoch的训练次数变少了,如果要达到相同的精度,需要增加epoch迭代次数3.使得梯度下降的方向更加准确,batch_size=1,梯度变来变去,网络很难收敛;batch_size越大,其确定的下降方向越准。原创 2022-04-21 20:37:32 · 5560 阅读 · 0 评论 -
文本生成中的采样策略
如果attention学习的不好,就会让模型只过多的关注某些词,然后导致重复翻译的现象,通过Coverage惩罚可以让decoder均匀的关注x中的词,防止一些token获得过多的注意力。在测试解码的时候,不需要限定解码的长度,等模型预测出EOS这个token,解码就停止了。每个时间步都选择分布中概率最大的作为当前解码的单词,问题在于,容易生成很多重复的句子。:在语言模型中,随着句子的越来越长,极大似然的累乘会变得越来越小。在每个时间步保留topK的结果,最后选择一个概率最大的结果。原创 2022-10-28 21:38:05 · 709 阅读 · 0 评论 -
Bert相关
Bert是文本编码器,它使用了Transformer的Encoder端,有两个预训练任务,分别是掩码语言模型和下一句子预测;掩码语言模型是随机选择15%的词,在这15%的词中,选择80%的词进行mask,选择10%的词随机替换成别的词,剩下10%的词什么也不做,然后根据上下文来预测这些词。下一句子预测是判断前后两个句子是否互为上下句;然后它使用了大规模的预料进行预训练。:① 在后续finetune任务中语句中并不会出现 [MASK] 标记;原创 2022-10-27 22:53:31 · 791 阅读 · 0 评论 -
生成模型的评价指标
比较候选译文和参考译文的n-gram的重合程度,unigram用于衡量单词翻译的准确度,高阶n-gram用于衡量句子翻译的流畅度。BLEU需要计算1-gram,2-gram的惩罚因子:不希望模型生成短句。对重复和短句有不好的表现。原创 2022-10-08 11:10:14 · 758 阅读 · 0 评论 -
文本生成中的PGN网络
encoder通过self-attention机制计算出各输入向量的隐表示来作为K,V,decoder中每个时间步的输入隐状态作为Q,然后Q和K做点乘经softmax操作得到各输入向量的权重,然后再和V做点乘得到上下文表示,将上下文表示和该时间步的输出隐表示拼接后作为该时间步的解码输出。原创 2022-10-07 20:24:32 · 448 阅读 · 0 评论 -
数据不平衡
随机删除一些类别多的数据,但是会改变数据分布,减少信息。目前比较好的方法是将欠采样应用到集成学习中,即对正例进行多次欠采样,将其分成n份,之后配以反例,从而形成多组正例/反例数据集,供多个学习器使用。这样看来,每个学习器都采用了欠采样,但是在全局看来不会丢失重要信息。:把类别少的数据通过复制或生成SMOTH的方法变多,也可用数据增强的方法去做。:数据分布不会发生变化,但是仍然有数据不平衡的问题。原创 2022-10-05 17:07:07 · 225 阅读 · 0 评论 -
word2vec&fastText
word2vec分别有输入层,隐藏层,输出层;输入的是单词的one-hot表示,,输出的是词表中每个单词的预测概率;word2vec有skip-gram,CBOW两种网络模型,skip-gram的思想是通过中心词来预测上下文,CBOW的思想是通过上下文来预测中心词;word2vec的目标函数是将条件概率最大化:(和语言模型很像)P(上下文∣中心词),P(中心词∣上下文)word2vec有两种优化方法:分层softmax和负采样。原创 2022-09-30 22:46:17 · 451 阅读 · 0 评论 -
绝对位置编码,相对位置编码
不同于CNN,RNN,对于Transformer模型,Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token1.想办法将位置信息融入到输入中,这构成了绝对位置信息的一般做法2.微调Attention结构,使它有能力分辨不同位置的token。...原创 2022-07-25 16:21:26 · 1142 阅读 · 0 评论 -
标准化与归一化,batch normlization与layer normlization
在机器学习领域,不同特征之间的量纲一般是不同的,为了消除不同量纲之间的影响,一般需要归一化或标准化。原创 2022-07-21 00:27:36 · 213 阅读 · 0 评论 -
文本生成中的OOV问题
oov问题是文本生成任务中很常见的现象,oov问题是怎么产生的呢?原创 2022-07-18 22:43:19 · 2406 阅读 · 0 评论 -
【无标题】
节省一半的参数量,词向量矩阵非常耗内存,只需维护一个即可。auto-regressive:seq2seqCRF:建模隐状态之间的线性依赖关系好处:加快模型训练速度,噪声少,收敛快坏处:没有自我纠错的能力解码过程预测错误的现象:exposure bias 解决方案:teacher forcing与non-teacher forcing结合先用teacher forcing训练前几个epoch(或几个batch),然后non-teacher forcing训练后几个epoch,模型会具备一定的纠错能力原创 2022-07-12 22:42:23 · 53 阅读 · 0 评论