动手学习pytorch第二次打卡

最新推荐文章于 2020-02-23 19:12:15 发布

tomkun18

最新推荐文章于 2020-02-23 19:12:15 发布

阅读量713

点赞数

本文链接：https://blog.csdn.net/tomkun18/article/details/104347459

版权

动手学习pytorch第二次打卡
#1 错题分析
1.下列模型不是由基础块重复堆叠而成的是
AlexNet
VGG
NiN
GoogLeNet
答案解释
选项1：错误，参考AlexNet。
选项2：正确，由VGG block组成。
选项3：正确，由NiN block组成。
选项4：正确，由Inception组成
总结alexnet不是由简单块堆叠而成的，其他都是

在稠密块中，假设由3个输出通道数为8的卷积层组成，稠密块的输入通道数是3，那么稠密块的输出通道数是
8
11
24
27
答案解释
输出通道数=输入通道数+卷积层个数卷积输出通道数
3+83=27
这块出错是没有理解densenet densenet主要操作是concat 3+8*3正好是输入和各个输出层通道数的拼接
总结:由于自己是图像算法工程师，所以这块掌握较好，里面的内容无需看视频都能答对，但是densenet没有学过，所以掌握不是很好。
问题为什么densenet同样的精度，参数更少，效果更好呢？理解:densenet结构更利于梯度的方向传播，另外1乘1卷积更利于通道融合并降低参数。

错题分析：
下列哪一项不是构建Vocab类所必须的步骤：
词频统计，清洗低频词
句子长度统计
构建索引到token的映射
构建token到索引的映射
答案解释
句子长度统计与构建字典不相关
总结句子长度和字典是没有关系的

在LSTM模型的初始化中，下列不需要初始化的参数是？
每个循环单元中的记忆细胞和循环单元的值
第0个循环单元的记忆细胞和循环单元的值
门控单元中用于计算遗忘门的权重与偏差
用于计算输出的权重与偏差
答案解释
每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态，而非参数，因此不需要初始化。
总结第0个循环单元是需要初始化的

总结：文本没有接触过，所以掌握并不好，把视频重新看了一遍加深印象。其中的相邻采样很巧妙。
疑问：如果文本字数从13到3千，有什么办法吗？实验了填充效果并不好。

错题分析：
数据预处理中分词(Tokenization)的工作是？
把词语、标点用空格分开
把字符形式的句子转化为单词组成的列表
把句子转化为单词ID组成的列表
去除句子中的不间断空白符等特殊字符
答案解释
选项二：正确，参考数据预处理分词(Tokenization)部分。
总结:将汉语分词

下列不属于单词表里的特殊符号的是？
未知单词
空格符
句子开始符
句子结束符
答案解释
选项二：错误，参考建立词典部分代码，空格不被认为是特殊字符，在该项目里，空格在预处理时被去除。
总结：开始和结尾词和未登入词都是特殊符号，空格应该去除。

以下对于加入Attention机制的seq2seq模型的陈述正确的是：
seq2seq模型不可以生成无穷长的序列。
每个时间步，解码器输入的语境向量(context vector)相同
解码器RNN仍由编码器最后一个时间步的隐藏状态初始化。
引入注意力机制可以加速模型训练。
答案解释
选项1：seq2seq模型的预测需人为设定终止条件，设定最长序列长度或者输出[EOS]结束符号，若不加以限制则可能生成无穷长度序列
选项2：不同，每个位置都会计算各自的attention输出
选项3：正确
选项4：注意力机制本身有高效的并行性，但引入注意力并不能改变seq2seq内部RNN的迭代机制，因此无法加速。

以下对于注意力机制叙述错误的是：
注意力机制借鉴了人类的注意力思维方式，以获得需要重点关注的目标区域。
在计算注意力权重时，key 和 query 对应的向量维度需相等。
点积注意力层不引入新的模型参数。
注意力掩码可以用来解决一组变长序列的编码问题。
答案解释
在Dot-product Attention中，key与query维度需要一致，在MLP Attention中则不需要。
总结：点积注意力层不引入新的模型参数。

在Transformer模型中，注意力头数为h，嵌入向量和隐藏状态维度均为d，那么一个多头注意力层所含的参数量是：
4hd^2
(3h + 1)d^2
4d^2
3hd^2
答案解释
参考MultiHeadAttention模块的定义。
h个注意力头中，每个的参数量为3d^2
，最后的输出层形状为hd times d，所以参数量共为4hd^2。
总结：此部分需要反复观看transformer定义，需要理解

关于Transformer描述正确的是：
在训练和预测过程中，解码器部分均只需进行一次前向传播。
Transformer 内部的注意力模块均为自注意力模块。
解码器部分在预测过程中需要使用 Attention Mask。
自注意力模块理论上可以捕捉任意距离的依赖关系。
答案解释
选项1：训练过程1次，预测过程要进行句子长度次
选项2：Decoder 部分的第二个注意力层不是自注意力，key-value来自编码器而query来自解码器
选项3：不需要
选项4：正确，因为自注意力会计算句子内任意两个位置的注意力权重
总结：再看视频，理解transformer运行机制，需要通过mask获得权重，规避损失。

总结：这块是nlp的难点之一，也是bert等的基础，把视频再看一遍，尤其需要理解注意力机制。因为有效果，而且是基础。

错题分析：
有限制条件的优化问题可以用什么方法解决：_______。
拉格朗日乘子法
添加惩罚项
投影法
以上都是
答案解释
总结:上面的方法都是处理限制条件优化的手段

总结：这块主要讲优化算法，其实对我们理解优化器有好处。是adam等高阶算法的基础。

全盘总结：学到了新东西，尤其是transformer

tomkun18

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学习pytorch第二次打卡

动手学习pytorch第二次打卡#1 错题分析1.下列模型不是由基础块重复堆叠而成的是AlexNetVGGNiNGoogLeNet答案解释选项1：错误，参考AlexNet。选项2：正确，由VGG block组成。选项3：正确，由NiN block组成。选项4：正确，由Inception组成总结alexnet不是由简单块堆叠而成的，其他都是在稠密块中，假设由3个输出通道数为...
复制链接

扫一扫