面试宝典二:nlp常见知识点

目录

0 transformer 面试题的简单回答

0.1 bert与bert-wwm之间的区别:

0.2 bert 具体的mask操作:

0.3 为什么要进行mask:

1.Transformer为何使用多头注意力机制?(为什么不使用一个头)

2.Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?

3.为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根),并使用公式推导进行讲解

4.在计算attention score的时候如何对padding做mask操作?

5.大概讲一下Transformer的Encoder模块?

6.简单介绍一下Transformer的位置编码?有什么意义和优缺点?

7.你还了解哪些关于位置编码的技术,各自的优缺点是什么?

8.简单讲一下Transformer中的残差结构以及意义。

9 残差网络的意义:

10.Encoder端和Decoder端是如何进行交互的?

0.1 batchNormalization与layerNormalization的区别

0.11 使用batch之后是怎么参与训练的?

参数的更新公式:w=w-学习率✖️梯度  

为什么是这样的?

0.11 cos相似度跟欧式距离的差异和理解

0.19 BOW-N-gram-TF-IDF-Word2vec

0.2 文本中词的权重计算 TF-IDF、TF-IWF

TF-IDF 的 核心思想:

优点:

缺点:

 TF-IWF 的 核心思想:

0.3 朴素贝叶斯的模型

0.4 n-gram 模型原理

​ n-gram在分词中的应用

1 svm基本原理,核函数,核函数怎么选 ,四分类的原理是什么?

2 梯度理解:

2.1如何理解梯度爆炸 ? 就很好理解了

2.9 池化层是怎么进行反向传播的 最大池化 平均池化

1、平均池化的反向传播

2、最大池化的反向传播

3.反向传播 前向传播 梯度计算 参数更新 

 4 结巴的使用怎末处理这种分词,结巴的功能?不仅仅是分词 还有那些分词工具?

结巴的功能:

4.1 基于TextRank的关键词提取

结巴分词的原理:

5 pagerank算法 

5.5 聚类 k-means算法

6 形式语言与自动机 构造文法句法 

7 条件概率和联合概率密度计算方法

8 svm推导公式

9 信息熵 信息增益 

 9.1 基于信息熵的分词或者新词发现

9.2 凝固度理解,基于凝固度的新词发现分词方法 

10常用过拟合的方法,L0范数 L1正则与L2正则:

12 手推 svm

13 手推 word2vec

两种预测模型:

两种训练模型:这两种模式是相互独立的 不是联合在一起的也没有交叉 都是为了 提高训练速度,减少参数训练量 。

word2vec 负采样原理:是为了优化word2vec中计算的 减少计算量

word2vec应用哈夫曼树:

(层次hierarchical softmax归一化)归一化的原理:

14 但是聊起来诸如什么是语言模型,gpt和bert之间的区别,为什么会出现gpt,bert,xlnet这三类不一样的dl模型,他们和过往的nlp模型之间有什么关系,怎么评价语言模型能回答上来的就相对少很多

15 最大似然估计值求法和意义

15.5 一阶矩估计 二阶矩估计

16 手推 attention   多头self  attention

attention为什么要除 根号 d

17 小公司的面试题:

18 子类父类继承 添加属性:

19 SGD和adam的区别?

20:标准差:np.std()

21 文本分类中怎么针对 相似描述的文本进行分类  

22:常见的分词的方法 有哪些?jieba是怎么分词的?错误词是怎么分出来的?

22.5 字典树的模型构建方法?

23 老问题 elmo 与 bert 原理和区别

24 神经网络 是怎么解决 异 或 问题的

25 神经网络 输出的值有问题 怎么解决?

26 在文本分类中是怎么处理这个句子长度的问题的?很多句子长度不一的句子 ?

27 textcnn详解:

 卷积的性质:

池化的性质:

池化的作用:

28 29 微信看到的小的面试题:

29 激活函数图像 特点 区别

sigmoid 激活函数 :

tanh 激活函数: 

 relu 激活函数:

 30 什么是Dropout 特点过程


0 transformer 面试题的简单回答

preview

0.1 bert与bert-wwm之间的区别:

bert在 训练的时候是调用的 谷歌预训练的好的一个基于每个汉字的词向量,那么在不同的任务中用特定的语料库进行微调这是什么意思呢?

就是说谷歌用bert模型在海量全领域数据上训练出一个公共的模型bert模型参数 和基于每个字的一个向量表示。在不同的领域 比如 滴滴打车对话 和财经新闻 就是不同的预料库领域。然后首先是基于字去取词向量 然后再bert进行自

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甜辣uu

谢谢关注再接再厉

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值