NLP
期待脱离苦海的小叮当
这个作者很懒,什么都没留下…
展开
-
NLP学习之便捷使用bert
https://github.com/huggingface/transformers原创 2021-01-04 14:12:51 · 146 阅读 · 0 评论 -
NLP学习之语言模型LM
原创 2020-12-30 22:43:54 · 413 阅读 · 0 评论 -
NLP学习之transformer
Transformer的本质上是一个Encoder-Decoder的结构。编码器由6个编码block组成,同样解码器是6个解码block组成。与所有的生成模型相同的是,编码器的输出会作为解码器的输入。Encoder由N=6个相同的layer组成,layer指的就是上图左侧的单元,最左边有个“Nx”,这里是x6个。每个Layer由两个sub-layer组成,分别是multi-head self-attention mechanism和fully connected feed-forward network原创 2020-12-30 22:22:57 · 193 阅读 · 0 评论 -
KNN、朴素贝叶斯、LR、kmean、softmax、sigmoid、tanh
KNN:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。其算法的描述为:1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。朴素贝叶斯:算法优缺点:朴素贝叶斯分类算法,监督学习算法,而且是生成模型,优缺点主要包括:(1)算法优点:对大数量训练和原创 2020-12-30 21:59:23 · 417 阅读 · 0 评论 -
NLP学习之词向量模块
word2vec和fastText对比有什么区别?(word2vec vs fastText)1)都可以无监督学习词向量, fastText训练词向量时会考虑subword;2) fastText还可以进行有监督学习进行文本分类,其主要特点:结构与CBOW类似,但学习目标是人工标注的分类结果;采用hierarchical softmax对输出的分类标签建立哈夫曼树,样本中标签多的类别被分配短的搜寻路径;引入N-gram,考虑词序特征;引入subword来处理长词,处理未登陆词问题;elmo、G原创 2020-12-30 19:32:15 · 158 阅读 · 0 评论 -
NLP常见面试题
1、什么是困惑度(perplexity)?它在 NLP 中的作用是什么?困惑度是一种用于评估语言模型通顺程度的方法,测评困惑度的方法为:对测试集中的句子计算语言模型概率,概率越高则语言模型越好。由公式可知,句子概率越大,语言模型越好,迷惑度越小。2、梯度爆炸和梯度消失是什么?如何解决?反向传播时,如果网络过深,每层梯度连乘小于1的数,值会趋向0,发生梯度消失。大于1则趋向正无穷,发生梯度爆炸。梯度爆炸 — 梯度剪裁梯度剪裁:如果梯度过大则投影到一个较小的尺度上梯度消失 — 使用ReLU 和原创 2020-12-30 19:29:09 · 1369 阅读 · 1 评论 -
NLP学习之BERT
bert的双向体现在?mask+attention,mask的word结合全部其他encoder word的信息。Bert的是怎样实现mask构造的?MLM:将完整句子中的部分字mask,预测该mask词NSP:为每个训练前的例子选择句子 A 和 B 时,50% 的情况下 B 是真的在 A 后面的下一个句子, 50% 的情况下是来自语料库的随机句子,进行二分预测是否为真实下一句。在数据中随机选择 15% 的标记,其中80%被换位[mask],10%不变、10%随机替换其他单词,这样做的原因是什么?原创 2020-12-30 19:07:15 · 1730 阅读 · 0 评论 -
NLP知识点之bagging、gbdt、xgboost和lightGBM
偏差和方差:偏差.预测值与真实值之间的误差。方差:模型的拟合程度。bagging:Bagging 的思路是所有基础模型都一致对待,每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。大部分情况下,经过 bagging 得到的结果方差(variance)更小。Boosting:Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的,而是经过不停的考验和筛选来挑选出「精英」,然后给精英更多的投票权,表现不好的基础模型则给较少的投票权,然后综合所有人的投票得到原创 2020-12-30 15:14:42 · 847 阅读 · 0 评论