NLP面经
文章平均质量分 67
##
石头猿rock
这个作者很懒,什么都没留下…
展开
-
11.3面试相关
贝叶斯优化算法和网格搜索不同的是:网格搜索在测试一个新点的时候会忽略前一个点的信息,而贝叶斯优化会充分利用之前的信息,贝叶斯优化是通过对进行学习,来找到使目标函数达到全局最优的,他学习目标函数的形状的方法是:首先根据先验信息假设一个目标函数,然后采样一个新点去测试目标函数,再利用得到的信息去更新这个先验分布,最后算法测试是通过后验分布给出全局最值最有可能出现的点。原创 2022-11-03 22:21:44 · 316 阅读 · 0 评论 -
11.1面试相关
指针网络就是生成一个指向输入中单词的概率分布,decoder端每个时刻的输入作为query,encoder端提供key,value,然后计算关于输入中每个单词的注意力权重,并将这个注意力权重作为概率分布;然后学习一个0-1之间的权重,将这个概率分布和指向词表的概率分布进行相加这使得模型更加倾向于选择输入中的词。原创 2022-11-02 16:56:25 · 386 阅读 · 0 评论 -
文本生成中的采样策略
如果attention学习的不好,就会让模型只过多的关注某些词,然后导致重复翻译的现象,通过Coverage惩罚可以让decoder均匀的关注x中的词,防止一些token获得过多的注意力。在测试解码的时候,不需要限定解码的长度,等模型预测出EOS这个token,解码就停止了。每个时间步都选择分布中概率最大的作为当前解码的单词,问题在于,容易生成很多重复的句子。:在语言模型中,随着句子的越来越长,极大似然的累乘会变得越来越小。在每个时间步保留topK的结果,最后选择一个概率最大的结果。原创 2022-10-28 21:38:05 · 695 阅读 · 0 评论 -
Bert相关
Bert是文本编码器,它使用了Transformer的Encoder端,有两个预训练任务,分别是掩码语言模型和下一句子预测;掩码语言模型是随机选择15%的词,在这15%的词中,选择80%的词进行mask,选择10%的词随机替换成别的词,剩下10%的词什么也不做,然后根据上下文来预测这些词。下一句子预测是判断前后两个句子是否互为上下句;然后它使用了大规模的预料进行预训练。:① 在后续finetune任务中语句中并不会出现 [MASK] 标记;原创 2022-10-27 22:53:31 · 778 阅读 · 0 评论 -
决策树总结
决策树的学习包括三个步骤:特征选择,决策树的生成,决策树的剪枝。原创 2022-10-25 22:05:17 · 653 阅读 · 0 评论 -
Transformer相关
Transformer是由encoder模块各decoder模块构成的,这两个模块都是由6各相同的子模块组成。1.它的encoder模块首先是embedding层,然后是基于三角函数的绝对位置编码。原创 2022-10-24 18:44:11 · 658 阅读 · 0 评论 -
LSTM/梯度消失/激活函数
通过引入遗忘门,输入门,输出门,缓解了RNN的梯度消失现象三个门控制对前一段信息、输入信息以及输出信息的记忆状态,进而保证网络可以更好地学习到长距离依赖关系。遗忘门:通过判断当前输入的重要程度来决定对之前信息cell的保留度Ft=sigmoid(WxfX+WhfHt−1)输入门:通过判断当前输入的重要程度来决定对It=sigmoid(WxiX+WhiHt−1)原创 2022-10-20 21:50:01 · 843 阅读 · 0 评论 -
标准化与归一化,batch normlization与layer normlization
在机器学习领域,不同特征之间的量纲一般是不同的,为了消除不同量纲之间的影响,一般需要归一化或标准化。原创 2022-07-21 00:27:36 · 205 阅读 · 0 评论 -
生成模型的评价指标
比较候选译文和参考译文的n-gram的重合程度,unigram用于衡量单词翻译的准确度,高阶n-gram用于衡量句子翻译的流畅度。BLEU需要计算1-gram,2-gram的惩罚因子:不希望模型生成短句。对重复和短句有不好的表现。原创 2022-10-08 11:10:14 · 732 阅读 · 0 评论 -
文本生成中的PGN网络
encoder通过self-attention机制计算出各输入向量的隐表示来作为K,V,decoder中每个时间步的输入隐状态作为Q,然后Q和K做点乘经softmax操作得到各输入向量的权重,然后再和V做点乘得到上下文表示,将上下文表示和该时间步的输出隐表示拼接后作为该时间步的解码输出。原创 2022-10-07 20:24:32 · 433 阅读 · 0 评论 -
数据不平衡
随机删除一些类别多的数据,但是会改变数据分布,减少信息。目前比较好的方法是将欠采样应用到集成学习中,即对正例进行多次欠采样,将其分成n份,之后配以反例,从而形成多组正例/反例数据集,供多个学习器使用。这样看来,每个学习器都采用了欠采样,但是在全局看来不会丢失重要信息。:把类别少的数据通过复制或生成SMOTH的方法变多,也可用数据增强的方法去做。:数据分布不会发生变化,但是仍然有数据不平衡的问题。原创 2022-10-05 17:07:07 · 211 阅读 · 0 评论 -
word2vec&fastText
word2vec分别有输入层,隐藏层,输出层;输入的是单词的one-hot表示,,输出的是词表中每个单词的预测概率;word2vec有skip-gram,CBOW两种网络模型,skip-gram的思想是通过中心词来预测上下文,CBOW的思想是通过上下文来预测中心词;word2vec的目标函数是将条件概率最大化:(和语言模型很像)P(上下文∣中心词),P(中心词∣上下文)word2vec有两种优化方法:分层softmax和负采样。原创 2022-09-30 22:46:17 · 438 阅读 · 0 评论 -
机器学习基础梳理/模型评估指标
精确率和召回率是此消彼长的,无法做到双高;如果同时考虑两者,只能找到一个平衡点来兼顾精确率和召回率。当样本不平衡时,用准确率评估会失效。例如正负样本为9:1,模型全都预测成正样本,准确率为90%P-R曲线的纵轴是精确率,横轴是召回率;P-R曲线上的每一个点都代表着在不同的阈值。精确率/查准率:在被预测为正的样本中,预测对的样本的占比。召回率/查全率:在真正为正的样本中,预测对的样本的占比。准确率:在所有样本中,被预测对的样本的占比。可以无视样本不平衡的问题。下的精确率和召回率。原创 2022-09-21 21:37:12 · 429 阅读 · 0 评论 -
NLP面试知识点汇总
sigmoid激活函数在输入值很大或很小时的导数为0,而且导数最大为0.25,所以sigmoid导数连乘很容易为0,从而出现梯度消失现象,tanh激活函数同理。梯度爆炸会导致学习过程很不稳定,最坏的结果导致权重更新导数为NaN,无法更新参数。2)随着网络层数的增加,rnn在处理长序数据时容易出现梯度爆炸和梯度消失现象。>1时,连乘操作会使梯度变得越来越大,导致梯度爆炸;反之,梯度会变得很小,导致梯度消失。优点:relu计算简单,不涉及指数运算,有效解决了梯度消失现象。随着层数的增加,最终的值和。......原创 2022-08-05 19:29:54 · 646 阅读 · 0 评论