NLP复习2020(1)

1.判断题

1.神经网络预训练时可以将所有参数全部初始化为0。

答:不能,会造成训练时无法更新梯度,使训练无法收敛。见:https://zhuanlan.zhihu.com/p/27190255

2.从计算角度上,Sigmoid和tanh激活函数均需要计算指数,复杂度高,而ReLU只需要一个阈值即可得到激活值。

答:正确。相关知识见:激活函数—Sigmoid、Tanh、ReLu、softplus、softmax

2.选择题

下面哪些方法有助于解决深度网络的梯度消失问题(ACD)

控制网络深度
使用Sigmoid激活函数
预训练+微调
使用ReLU激活函数
详解深度学习中的梯度消失、爆炸原因及其解决方法

3.填空题

从给定的句子可以产生___9__个二元组短语(Bigram):
「Analytics Vidhya is a great source to learn data science」
二元组短语: Analytics Vidhya, Vidhya is, is a, a great, great source, source to, To learn, learn data, data science

4. 分析题

“结婚的和尚未结婚的”会被分词为 “结婚 的 和尚 未 结婚 的“的原因是?
中文分词概述和规则分词

重要概念:

重要概念: 激活函数:
sigmod和tanh,相同点:
优点:平滑
优点:易于求导
缺点:幂运算相对耗时
缺点:导数值小于 1,反向传播易导致梯度消失(Gradient Vanishing)
sigmod:
优点:可以作为概率,辅助模型解释
缺点:输出值不以零为中心,可能导致模型收敛速度慢

ReLU:
但是它比较好地解决了梯度消失的问题,而且计算速度非常快,只需要判断输入是否大于0,收敛速度远快于sigmoid和tanh。它是比较常用的激活函数。

但是,relu函数也有问题,训练的时候很”脆弱”。例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0。如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
神经网络基础

梯度消失:详解深度学习中的梯度消失、爆炸原因及其解决方法
skip-gram和cbow:词向量
RNN,lstm:循环神经网络
seq2seq:attention, self-attention: seq2seq
transformer: transformer
多义词;:从EMLo到Bert
mask:从EMLo到Bert

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值