【DL at H】动手学深度学习之自问自答

最新推荐文章于 2021-11-06 14:41:14 发布

huangyuan2019

最新推荐文章于 2021-11-06 14:41:14 发布

阅读量1k

点赞数 1

分类专栏：技能

本文链接：https://blog.csdn.net/qq_33034981/article/details/104269020

版权

文章目录

第一课线性回归
- 1.怎样去初始化一个多层的网络？（共有三种方法）
- 2.初始化模型参数的方法
- 3.有哪些定义好的损失函数？
- 4.怎么定义优化函数？
- 5.优化函数是怎么工作的？
- 6.训练的代码块一般是什么结构？
第二课 softmax与分类模型
- 1.softmax的形式是什么？它解决了哪两个问题？
- 2.输出，输入（样本，特征），参数，偏差，批量一般是怎么设置的？为什么要这么设置？
- 3.交叉熵的形式及优点（相对于平方损失）
- 4.怎么获取数据iter，参数初始化，定义模型，定义损失函数
第三课多层感知机
- 1.多层感知机与单层神经网络的关系
- 2.激活函数的作用是什么？常见的激活函数有哪些？
第四课文本预处理
- 1.`lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]`是什么含义？
- 2.同一batch中长短不一的句子怎么处理
- 3.``、``、``、``这些特殊token是什么意思？
第五课语言模型
- 1.n元语法是什么？它的缺陷是什么？
- 2.样本是怎么来的，怎么采样的？
- 3.随机采样和相邻采样是怎么做的？
第六课循环神经网络基础
- 1.循环神经网络的基本模型是什么？
- 2.one-hot向量是什么意思？
- 3.裁剪梯度是什么？
- 4.困惑度是什么？
第七课循环神经网络进阶
- 1.GRU是什么？它在基础循环神经网络上改进了什么？
- 2.LSTM的结构
- 3.深度循环神经网络的结构
- 4.双向循环神经网络
第八课过拟合和欠拟合及其解决方案
- 1.K折交叉验证是什么？
- 2.权重衰减是怎么减小过拟合的？
- 3.丢弃法是什么？
- 4.总结
第九课梯度消失、梯度爆炸
- 1.梯度消失和梯度爆炸的现象是怎么出现的？
- 2.为什么通常采用随机初始化参数？
- 3.环境因素有哪些？
第十课机器翻译及相关技术
- 1.文本数据清洗的注意点有哪些？
- 2.id2token和token2id一般怎么生成？
- 3.encoder-decoder的结构有什么作用？
- 4.sequence to sequence结构的逻辑是什么？
- 5.Beam Search是什么？
第十一课注意力机制和seq2seq模型
- 1.注意力机制是什么？
- 2.softmax屏蔽操作是什么？
- 3.点积注意力是什么？
- 4.注意力机制的应用方法？
第十二课 Transformer
- 1.transformer是什么？
- 2.多头注意力层是什么？
- 3.基于位置的前馈网络（Position-wise FFN）是什么？
- 4.相加归一化层（Add and Norm）是什么？
- 5.位置编码是什么？
第十三课卷积神经网络基础
- 1.卷积运算和互相关运算的关系
- 2.感受野是什么？
- 2.已知填充、步幅和卷积核的大小，怎么计算输出形状？
- 3.多输入和多输出是什么？
- 4.1*1卷积核有什么作用？
- 5.卷积层和全连接层比较？
- 6.什么是池化，有什么作用？
第十四课 LeNet
- 1.LeNet的模型结构是怎样的？为什么这么设计？
第十五课卷积神经网络进阶
- 1.AlexNet有什么改进？
- 2.VGG有什么特点？
- 3.NIN是什么？
- 4.GoogleNet有什么特点？
第十六课批量归一化和残差网络
- 1.输入归一化和批量归一化
- 2.BN使用时的一些问题
- 2.残差网络的原理
- 3.稠密网络的原理
- 4.稠密块和过度块的形状计算
- 5.1*1卷积核原理
第十七课凸优化
- 1.鞍点（梯度为0）
- 2.凸函数的一些性质
第十八课梯度下降
- 1.多维梯度下降和一维梯度下降的特点
- 2.自适应方法有哪些?
- 3.随机梯度下降和批量梯度下降的区别？
第十九课优化算法进阶
- precondition gradient vector
- 动量法
- - Momentum
第二十课 word2vec
- 1.PTB数据集是什么？
- 2.Skip-Gram跳字模型是什么？
- 3.embedding层是什么？
- 4.负采样近似的作用？
第二十一课词嵌入进阶
- 1.GloVe模型
- 2.求近义词
- 3.求类比词
第二十二课数据增强
- 1.数据增强包括哪些内容？
- 2.在模型训练中应用数据增强时需要注意什么？
第二十三课模型微调（fine tuning）
- 1.什么是微调？
- 2.一般怎么进行微调？
第二十四课文本分类
- 1.文本分类是什么？
- 2.文本情感分类一般怎么做？
- - 双向循环神经网络BIRNN
  - TextCNN一维卷积和时序最大池化层
第二十五课目标检测基础
- 1.锚框是什么？
- 2.交并比是什么？
- 3.预测时是如何生成框的？
- 4.多尺度目标检测是什么？怎么做？
第二十六课 GAN
- 1. 生成器和鉴别器的损失函数分别是什么？
第二十七课 DCGAN
- 1.置换卷积层是什么？
- 2.DCGAN一般是怎么训练的？
- 3.为什么鉴别器要用leakyRelu激活？
第二十八课图像风格迁移
- 1.什么是图像风格迁移？怎么做？
第二十九课图像分类1
第三十课图像分类2

2020.2.11

第一课线性回归

1.怎样去初始化一个多层的网络？（共有三种方法）

# method one
net = nn.Sequential(
    nn.Linear(num_inputs, 1)
    # other layers can be added here
    )

# method two
net = nn.Sequential()
net.add_module('linear', nn.Linear(num_inputs, 1))
# net.add_module ......

# method three
from collections import OrderedDict
net = nn.Sequential(OrderedDict([
          ('linear', nn.Linear(num_inputs, 1))
          # ......
        ]))

2.初始化模型参数的方法

# pytorch method
from torch.nn import init

init.normal_(net[0].weight, mean=0.0, std=0.01)
init.constant_(net[0].bias, val=0.0)  # or you can use `net[0].bias.data.fill_(0)` to modify it directly

# manual method
w = torch.tensor(np.random.normal(0, 0.01, (num_inputs, 1)), dtype=torch.float32)
b = torch.zeros(1, dtype=torch.float32)

w.requires_grad_(requires_grad=True)
b.requires_grad_(requires_grad=True)

3.有哪些定义好的损失函数？

均方、交叉熵

4.怎么定义优化函数？

optimizer = optim.SGD(net.parameters(), lr=0.03)

5.优化函数是怎么工作的？

常用的一种小批量随机梯度下降方法，首先随机选取一个小批量数据，通过反向传播计算Loss梯度，以这个梯度与一个预设的正数的乘积作为参数调整量，迭代更新。

6.训练的代码块一般是什么结构？

epoch 循环完成所有数据的一次训练
	batch 循环完成一个batch的训练
		数据读入
		网络输出结果
		计算Loss
		梯度清零
		反向传播
		参数更新

第二课 softmax与分类模型

1.softmax的形式是什么？它解决了哪两个问题？

e1/e1+e2+e3+…
解决了预测值与标签值的误差难度量、预测结果不直观这两个问题

2.输出，输入（样本，特征），参数，偏差，批量一般是怎么设置的？为什么要这么设置？

一般把一个批量作为一个tensor输入，batchsize表示这个批量包含的样本数，一张图片包含的特征即为长*宽个像素；
输出大小与网络的需求有关；
每层参数的大小与每层输出一致；
批量的设置主要是为了充分利用矢量计算的效率。

3.交叉熵的形式及优点（相对于平方损失）

(1/n)sum(log(预测类别正确的置信度[0-1]))
交叉熵相对于平方损失只关心正确预测结果

4.怎么获取数据iter，参数初始化，定义模型，定义损失函数

获取数据

batch_size = 256
num_workers = 4
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True</

最低0.47元/天解锁文章

huangyuan2019

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【DL at H】动手学深度学习之自问自答

@2020.2.11第一课线性回归1.怎样去初始化一个多层的网络？（共有三种方法）2.初始化模型参数的方法3.有哪些定义好的损失函数？4.怎么定义优化函数？5.优化函数是怎么工作的？6.训练的代码块一般是什么结构？第二课 softmax与分类模型1.softmax的形式是什么？它解决了哪两个问题？2.输出，输入（样本，特征），参数，偏差，批量一般是怎么设置的？为什么要这么设...
复制链接

扫一扫