这些NLP面试问题你都会么

Transfomer课程,Transformer架构,Transformer,对话机器人,NLP课程,NLP

什么是词嵌入
词嵌入的实现方式
NLP中的文本表示方法有几种
NLP中文本分布式表示
fasttext模型的结构,模型中的优点
复杂结构模型和简单结构模型的优缺点
什么是贝叶斯公式
怎么使用朴素贝叶斯分类
聚类算法有几种,简单介绍几种
什么是降维算法
什么是主题模型
介绍一下wordvector的实现方式
隐马尔科夫模型中前向和后向算法,vertibe算法
什么是贝叶斯网络,模型主要原理
什么是条件随机场,模型主要原理
推导softmax的求导过程
神经网络激活函数有几种,各有什么优缺点
时序数据选择怎么样的模型处理
lstm的模型结构及优化模型
介绍一下混淆矩阵和常用的模型评判标准
什么是信息熵,条件熵,联合熵
什么是交叉熵
什么是互信息
简单介绍一下最大熵模型算法原理
简单介绍一下为什么可以选择交叉熵作为损失函数,交叉熵损失函数的求导
什么是perplexity?它在nlp里的位置
ReLu损失函数有什么优缺点,有什么优化方法
讲一下EM算法,E步和M步的具体步骤,E中的期望是什么(关于什么分布的期望)
LSTM的型的参数个数和时间复杂度
BatchNorm和LayerNorm的区别?
L1正则和L2正则说一下 L1满足什么
常用正则化方式 L1L2正则化的区别在哪里 应该如何选择他们
逻辑回归怎么处理过拟合呢,需要对特征进行归一化么
有没有遇到过过拟合?为什么会过拟合?怎么处理过拟合?
拟合怎么办 欠拟合怎么办 怎么判断过拟合(训练集表现好、验证集表现不好) 标签分布不均衡怎么办 样本太少怎么办 (交叉验证)
你能简单区分一下,bagging 和 boosting 方法吗?
说一说集成学习
深度学习有没有用到归一化?用到了什么归一化?归一化的操作是什么?有什么作用?
数据不均匀对模型训练有什么影像,数据分布不均匀的问题怎么解决
传统的machine learning的算法了解哪些?你选择一个详细介绍一下
svm相比于LR或者Perceptron 优势在哪里
详细说下svm的每一步 函数 优化目标 最后变成什么形式 在什么条件下 为什么要用对偶问题
bert的架构是什么 目标是什么 输入包括了什么 三个embedding输入是怎么综合的
transformer里面每一层的主要构成有哪些
bert中MLM任务的具体策略是什么
bert的mask策略
BERT结构、transformer中feed forward的作用
bert有什么可以改进的地方
了解bert之后的大规模预训练模型吗
bert中的双向注意力,bert中的嵌入怎么实现
Seq2seq模型中decode和encode的差别有哪些
Word2vec的两种训练目标是什么 其中skip-gram训练的loss function是什么
生成式模型了解吗 和判别式模型有什么区别
哪些网络结构可以作为生成式模型的结构
生成序列的时候需要用的自回归结构 有了解吗
怎么去判断生成的截止点?比如给定中文生成英文,什么时候知道模型应该停止了呢
CNN结构pooling的作用是什么
过拟合产生的原因有哪些 解决方法有哪些
bert的position embedding要加一些其他的运算方式
RNN LSTM 为什么能缓解梯度消失
梯度消失 梯度爆炸
优化算法 sgd Adam
auc指标 优缺点
LR和SVM有哪些区别 原理 损失函数
你知道哪些排序算法
反转链表(递归 非递归)
topk最大(堆 递归算法 )
打印二叉树第k层
快速排序的时间复杂度 空间复杂度
随机森林和gbdt的区别
随机森林需要特征的标准化么 减少方差 为什么 多个决策树比单个决策树好在哪里
强化学习在什么场景下使用,
强化学习不收敛的情况
最大似然估计推测交叉熵的时候 假设数据的分布是什么样的
过拟合的解决方式 dropout除了随机drop掉 还需要什么 训练的时候和预测的时候分别怎么做
准确率 召回率 f1 auc ROC
对特征工程 了解么
extcnn为什么有效,有什么优缺点,怎么改进
sigmoid和softmax,写一下交叉熵公式
深度语义匹配模型
注意力机制和自注意力机制,怎么实现注意力和自注意力
transform模型的结构,
transformer用的是哪种normalization,为什么不用BN
transform自主力机制和实现原理,有什么需要改进点
无监督学习怎么计算文本相似度
知识图谱嵌入讲一下TransE算法有什么缺点,如何改进
机器学习的衡量指标有什么,如何解决过拟合和欠拟合
写一下单链表冒泡排序
写一下项目中用到的跨语言Embedding的推导过程
深度学习一阶优化和二阶优化的方法有哪些,基于动量的方法为什么能快速收敛
Word2vec为什么能学习出语义相似的词语呢
传统的softmax词向量模型为什么计算效率低,词嵌入应该从输入层获取还是输出层获取
GBDT了解吗?基分类器用的什么?分类时也是用的那个吗?说一下GBDT的原理
XGBoost相对GBDT原理上有哪些改进。
介绍一下极大似然估计,和最大后验的区别是什么
word2vec中,负采样相比层次化softmax,有什么优缺点?层次化softmax能保证概率归一化吗?
单词纠错怎么做
知识图谱表示学习和Word2vec这种词向量嵌入有什么异同呢
如何识别标题党
如何进行实体消歧,如“普通老百姓”,可能是电视剧名字,也可能是人的称谓
知识图谱实体关系抽取的技术
知识图谱实体连接和实体消岐
fasttext和textCNN说一下
如何判断一句话是否含有反动、暴力元素,有标注数据怎么做,无标注数据怎么做
大型预训练模型除了bert以外还知道哪些
GPT和bert间主要的区别在哪 双向transformer会带来什么样的好处 你知道GPT为什么不用双向模型吗 bert作为双向模型如何解决未来文本的信息泄漏问题
介绍逻辑回归,逻辑回归是一个分类算法,那么它是在回归什么呢?
使用Word2vec算法计算得到的词向量之间为什么能够表征词语之间的语义近似关系?怎么判断wordvector的好坏
在样本量较少的情况下如何扩充样本数量?
优化方法,拟牛顿法,梯度下降法,其他优化算法
介绍一下逻辑回归和线性回归
词向量发展历史:one-hot、NNLM、word2vec、glove、fasttext、ELMO、CoVE、GPT、BERT、ERNIE、ERNIE 2.0、bert-wwm、roberta、xlnet
GPT/BERT 中分别是怎么用 Transformer 的?

Transfomer课程,Transformer架构,Transformer,对话机器人,NLP课程,NLP

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值