动手深度学习v2 多层感知机和从零开始实现部分习题

最新推荐文章于 2023-07-01 14:35:11 发布

lzmmmQAQ

最新推荐文章于 2023-07-01 14:35:11 发布

阅读量4k

点赞数 3

分类专栏：动手深度学习文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/monica1232/article/details/121611871

版权

动手深度学习专栏收录该内容

13 篇文章 8 订阅

订阅专栏

多层感知机,多层感知机的从零开始实现

- 一、多层感知机
- 二 .多层感知机的从零开始实现

一、多层感知机

1.计算pReLU激活函数的导数。
2.证明一个仅使用ReLU（或pReLU）的多层感知机构造了一个连续的分段线性函数。
3.证明 tanh(𝑥)+1=2sigmoid(2𝑥) 。
4.假设我们有一个非线性单元，将它一次应用于一个小批量的数据。你认为这会导致什么样的问题？

1.计算pReLU激活函数的导数.
pReLU(𝑥)=max(0,𝑥)+𝛼min(0,𝑥).
x大于零是为1，小于零时为𝛼,等与零不存在

2.证明一个仅使用ReLU（或pReLU）的多层感知机构造了一个连续的分段线性函数。
没有很get他的意思
看了下别人的理解
H = Relu(XW^(1) + b^(2))
y = HW^(2) + b^(2)
就是讲Relu就是个分段函数，无论x取什么y都是分段函数
3.证明 tanh(𝑥)+1=2sigmoid(2𝑥)
公式简单化一下请添加图片描述
4.假设我们有一个非线性单元，将它一次应用于一个小批量的数据。你认为这会导致什么样的问题？
也是看别人分析的
这里看的

I think the most different between an MLP apply nonlinearity and MLP
not apply nonlinearity is the time and complexity. In fact, MLPs
applying nonlinearity such as Sigmoid and tanh are very expensive to
calculate and find the derivative for gradient descent. So, we need
something faster and Relu is a good choice to address these problem
(6.x sigmoid).

I think if we apply different non linearity for different mini batches
, as the activation function changes the first thing is the range of
the output will vary which we affect the final output

maybe this would create problems like each min batch would be
squished(scaled) differently.

二 .多层感知机的从零开始实现

1.在所有其他参数保持不变的情况下，更改超参数num_hiddens的值，并查看此超参数的变化对结果有何影响。确定此超参数的最佳值。

2.尝试添加更多的隐藏层，并查看它对结果有何影响。

3.改变学习速率会如何影响结果？保持模型结构和其他超参数(包括迭代周期数)不变，学习率设置为多少会带来最好的结果？

4.通过对所有超参数(学习率、迭代周期数、隐藏层数、每层的隐藏单元数)进行联合优化，可以得到的最佳结果是什么？

5.描述为什么涉及多个超参数更具挑战性。

6.如果要构建多个超参数的搜索方法，你能想到的最聪明的策略是什么？

num=256, epoch=10, lr=0.1
在这里插入图片描述
num=512, epoch=10, lr=0.1(比上个要好一点)
比上一个好一点
num=1024, epoch=10, lr=0.1(这个更好)
也比上一个好一点
num=1024, epoch=20, lr=0.1(有点欠拟合)

num=512, epoch=20, lr=0.1(也有点欠拟合)

num=512, epoch=20, lr=0.15(增加了学习率也不行) 在这里插入图片描述试过加隐藏层,但那个还不是很会调,学到后面在看看把.😂

6.如果要构建多个超参数的搜索方法，你能想到的最聪明的策略是什么？现在的感觉就是首先可以调跟其他参数相关不大的参数,就比如num_epochs,num_hidden然后再调参数之间有关联性的,比如lr和batch_size,batch_size 小的时候lr大点,batch_size 大的时候,lr小点

lzmmmQAQ

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
4
评论
动手深度学习v2 多层感知机和从零开始实现部分习题

1.计算pReLU激活函数的导数。2.证明一个仅使用ReLU（或pReLU）的多层感知机构造了一个连续的分段线性函数。3.证明 tanh(????)+1=2sigmoid(2????) 。4.假设我们有一个非线性单元，将它一次应用于一个小批量的数据。你认为这会导致什么样的问题？1.计算pReLU激活函数的导数。pReLU(????)=max(0,????)+????min(0,????).x大于零是为1，小于零时为????2.证明一个仅使用ReLU（或pReLU）的多层感知机构造了一个连续的分
复制链接

扫一扫

专栏目录