动手学习pytorch第二次打卡

动手学习pytorch第二次打卡
#1 错题分析
1.下列模型不是由基础块重复堆叠而成的是
AlexNet
VGG
NiN
GoogLeNet
答案解释
选项1:错误,参考AlexNet。
选项2:正确,由VGG block组成。
选项3:正确,由NiN block组成。
选项4:正确,由Inception组成
总结alexnet不是由简单块堆叠而成的,其他都是

在稠密块中,假设由3个输出通道数为8的卷积层组成,稠密块的输入通道数是3,那么稠密块的输出通道数是
8
11
24
27
答案解释
输出通道数=输入通道数+卷积层个数卷积输出通道数
3+8
3=27
这块出错是没有理解densenet densenet主要操作是concat 3+8*3正好是输入和各个输出层通道数的拼接
总结:由于自己是图像算法工程师,所以这块掌握较好,里面的内容无需看视频都能答对,但是densenet没有学过,所以掌握不是很好。
问题为什么densenet同样的精度,参数更少,效果更好呢?理解:densenet结构更利于梯度的方向传播,另外1乘1卷积更利于通道融合并降低参数。

错题分析:
下列哪一项不是构建Vocab类所必须的步骤:
词频统计,清洗低频词
句子长度统计
构建索引到token的映射
构建token到索引的映射
答案解释
句子长度统计与构建字典不相关
总结句子长度和字典是没有关系的

在LSTM模型的初始化中,下列不需要初始化的参数是?
每个循环单元中的记忆细胞和循环单元的值
第0个循环单元的记忆细胞和循环单元的值
门控单元中用于计算遗忘门的权重与偏差
用于计算输出的权重与偏差
答案解释
每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态,而非参数,因此不需要初始化。
总结第0个循环单元是需要初始化的

总结:文本没有接触过,所以掌握并不好,把视频重新看了一遍加深印象。其中的相邻采样很巧妙。
疑问:如果文本字数从13到3千,有什么办法吗?实验了填充效果并不好。

错题分析:
数据预处理中分词(Tokenization)的工作是?
把词语、标点用空格分开
把字符形式的句子转化为单词组成的列表
把句子转化为单词ID组成的列表
去除句子中的不间断空白符等特殊字符
答案解释
选项二:正确,参考数据预处理分词(Tokenization)部分。
总结:将汉语分词

下列不属于单词表里的特殊符号的是?
未知单词
空格符
句子开始符
句子结束符
答案解释
选项二:错误,参考建立词典部分代码,空格不被认为是特殊字符,在该项目里,空格在预处理时被去除。
总结:开始和结尾词和未登入词都是特殊符号,空格应该去除。

以下对于加入Attention机制的seq2seq模型的陈述正确的是:
seq2seq模型不可以生成无穷长的序列。
每个时间步,解码器输入的语境向量(context vector)相同
解码器RNN仍由编码器最后一个时间步的隐藏状态初始化。
引入注意力机制可以加速模型训练。
答案解释
选项1:seq2seq模型的预测需人为设定终止条件,设定最长序列长度或者输出[EOS]结束符号,若不加以限制则可能生成无穷长度序列
选项2:不同,每个位置都会计算各自的attention输出
选项3:正确
选项4:注意力机制本身有高效的并行性,但引入注意力并不能改变seq2seq内部RNN的迭代机制,因此无法加速。

以下对于注意力机制叙述错误的是:
注意力机制借鉴了人类的注意力思维方式,以获得需要重点关注的目标区域。
在计算注意力权重时,key 和 query 对应的向量维度需相等。
点积注意力层不引入新的模型参数。
注意力掩码可以用来解决一组变长序列的编码问题。
答案解释
在Dot-product Attention中,key与query维度需要一致,在MLP Attention中则不需要。
总结:点积注意力层不引入新的模型参数。

在Transformer模型中,注意力头数为h,嵌入向量和隐藏状态维度均为d,那么一个多头注意力层所含的参数量是:
4hd^2
(3h + 1)d^2
4d^2
3hd^2
答案解释
参考MultiHeadAttention模块的定义。
h个注意力头中,每个的参数量为3d^2
,最后的输出层形状为hd times d,所以参数量共为4hd^2。
总结:此部分需要反复观看transformer定义,需要理解

关于Transformer描述正确的是:
在训练和预测过程中,解码器部分均只需进行一次前向传播。
Transformer 内部的注意力模块均为自注意力模块。
解码器部分在预测过程中需要使用 Attention Mask。
自注意力模块理论上可以捕捉任意距离的依赖关系。
答案解释
选项1:训练过程1次,预测过程要进行句子长度次
选项2:Decoder 部分的第二个注意力层不是自注意力,key-value来自编码器而query来自解码器
选项3:不需要
选项4:正确,因为自注意力会计算句子内任意两个位置的注意力权重
总结:再看视频,理解transformer运行机制,需要通过mask获得权重,规避损失。

总结:这块是nlp的难点之一,也是bert等的基础,把视频再看一遍,尤其需要理解注意力机制。因为有效果,而且是基础。

错题分析:
有限制条件的优化问题可以用什么方法解决:_______。
拉格朗日乘子法
添加惩罚项
投影法
以上都是
答案解释
总结:上面的方法都是处理限制条件优化的手段

总结:这块主要讲优化算法,其实对我们理解优化器有好处。是adam等高阶算法的基础。

全盘总结:学到了新东西,尤其是transformer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值