目录
1.Transformer为何使用多头注意力机制?(为什么不使用一个头)
2.Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
3.为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根),并使用公式推导进行讲解
4.在计算attention score的时候如何对padding做mask操作?
6.简单介绍一下Transformer的位置编码?有什么意义和优缺点?
0.1 batchNormalization与layerNormalization的区别
0.19 BOW-N-gram-TF-IDF-Word2vec
1 svm基本原理,核函数,核函数怎么选 ,四分类的原理是什么?
4 结巴的使用怎末处理这种分词,结巴的功能?不仅仅是分词 还有那些分词工具?
两种训练模型:这两种模式是相互独立的 不是联合在一起的也没有交叉 都是为了 提高训练速度,减少参数训练量 。
word2vec 负采样原理:是为了优化word2vec中计算的 减少计算量
(层次hierarchical softmax归一化)归一化的原理:
16 手推 attention 多头self attention
22:常见的分词的方法 有哪些?jieba是怎么分词的?错误词是怎么分出来的?
26 在文本分类中是怎么处理这个句子长度的问题的?很多句子长度不一的句子 ?
0 transformer 面试题的简单回答
0.1 bert与bert-wwm之间的区别:
bert在 训练的时候是调用的 谷歌预训练的好的一个基于每个汉字的词向量,那么在不同的任务中用特定的语料库进行微调这是什么意思呢?
就是说谷歌用bert模型在海量全领域数据上训练出一个公共的模型bert模型参数 和基于每个字的一个向量表示。在不同的领域 比如 滴滴打车对话 和财经新闻 就是不同的预料库领域。然后首先是基于字去取词向量 然后再bert进行自