面试宝典二：nlp常见知识点

甜辣uu

已于 2022-04-20 20:57:30 修改

阅读量2.1k

点赞数

分类专栏： python从入门到精通自然语言处理-nlp-NLP 深度学习神经网络实战100例文章标签：面试人工智能自然语言处理机器学习深度学习

于 2021-10-12 16:16:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38735017/article/details/120718989

版权

python从入门到精通同时被 3 个专栏收录

166 篇文章 154 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

深度学习神经网络实战100例

109 篇文章 324 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

自然语言处理-nlp-NLP

89 篇文章 80 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

目录

0 transformer 面试题的简单回答

0.1 bert与bert-wwm之间的区别：

0.2 bert 具体的mask操作：

0.3 为什么要进行mask:

1.Transformer为何使用多头注意力机制？（为什么不使用一个头）

2.Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？

3.为什么在进行softmax之前需要对attention进行scaled（为什么除以dk的平方根），并使用公式推导进行讲解

4.在计算attention score的时候如何对padding做mask操作？

5.大概讲一下Transformer的Encoder模块？

6.简单介绍一下Transformer的位置编码？有什么意义和优缺点？

7.你还了解哪些关于位置编码的技术，各自的优缺点是什么？

8.简单讲一下Transformer中的残差结构以及意义。

9 残差网络的意义：

10.Encoder端和Decoder端是如何进行交互的？

0.1 batchNormalization与layerNormalization的区别

0.11 使用batch之后是怎么参与训练的？

参数的更新公式：w=w-学习率✖️梯度

为什么是这样的？

0.11 cos相似度跟欧式距离的差异和理解

0.19 BOW-N-gram-TF-IDF-Word2vec

0.2 文本中词的权重计算 TF-IDF、TF-IWF

TF-IDF 的核心思想：

TF-IWF 的核心思想：

0.3 朴素贝叶斯的模型

0.4 n-gram 模型原理

n-gram在分词中的应用

1 svm基本原理，核函数，核函数怎么选，四分类的原理是什么？

2 梯度理解：

2.1如何理解梯度爆炸？就很好理解了

2.9 池化层是怎么进行反向传播的最大池化平均池化

1、平均池化的反向传播

2、最大池化的反向传播

3.反向传播前向传播梯度计算参数更新

4 结巴的使用怎末处理这种分词，结巴的功能？不仅仅是分词还有那些分词工具？

结巴的功能：

4.1 基于TextRank的关键词提取

结巴分词的原理：

5 pagerank算法

5.5 聚类 k-means算法

6 形式语言与自动机构造文法句法

7 条件概率和联合概率密度计算方法

8 svm推导公式

9 信息熵信息增益

9.1 基于信息熵的分词或者新词发现

9.2 凝固度理解，基于凝固度的新词发现分词方法

10常用过拟合的方法，L0范数 L1正则与L2正则：

13 手推 word2vec

两种预测模型：

两种训练模型：这两种模式是相互独立的不是联合在一起的也没有交叉都是为了提高训练速度，减少参数训练量。

word2vec 负采样原理：是为了优化word2vec中计算的减少计算量

word2vec应用哈夫曼树：

（层次hierarchical softmax归一化）归一化的原理：

14 但是聊起来诸如什么是语言模型，gpt和bert之间的区别，为什么会出现gpt，bert，xlnet这三类不一样的dl模型，他们和过往的nlp模型之间有什么关系，怎么评价语言模型能回答上来的就相对少很多

15 最大似然估计值求法和意义

15.5 一阶矩估计二阶矩估计

16 手推 attention 多头self attention

attention为什么要除根号 d

17 小公司的面试题：

18 子类父类继承添加属性：

19 SGD和adam的区别?

20：标准差：np.std（）

21 文本分类中怎么针对相似描述的文本进行分类

22：常见的分词的方法有哪些？jieba是怎么分词的？错误词是怎么分出来的？

22.5 字典树的模型构建方法？

23 老问题 elmo 与 bert 原理和区别

24 神经网络是怎么解决异或问题的

25 神经网络输出的值有问题怎么解决？

26 在文本分类中是怎么处理这个句子长度的问题的？很多句子长度不一的句子？

27 textcnn详解：

卷积的性质：

池化的性质：

池化的作用：

28 29 微信看到的小的面试题：

29 激活函数图像特点区别

sigmoid 激活函数：

tanh 激活函数：

relu 激活函数：

30 什么是Dropout 特点过程

0 transformer 面试题的简单回答

preview

0.1 bert与bert-wwm之间的区别：

bert在训练的时候是调用的谷歌预训练的好的一个基于每个汉字的词向量，那么在不同的任务中用特定的语料库进行微调这是什么意思呢？

就是说谷歌用bert模型在海量全领域数据上训练出一个公共的模型bert模型参数和基于每个字的一个向量表示。在不同的领域比如滴滴打车对话和财经新闻就是不同的预料库领域。然后首先是基于字去取词向量然后再bert进行自

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

甜辣uu 谢谢关注再接再厉

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。