深度学习第三课多层感知机

最新推荐文章于 2024-09-14 20:51:55 发布

Halo_Linch

最新推荐文章于 2024-09-14 20:51:55 发布

阅读量1.3k

点赞数

分类专栏： DL

本文链接：https://blog.csdn.net/dake13/article/details/83117523

版权

本文探讨了多层感知机的神经网络结构，强调了隐藏层和非线性激活函数的重要性。文章指出，sigmoid激活函数在深层网络中可能导致梯度消失问题，而ReLU函数虽然在负数区域将数据置零但因其简单计算和较小影响而被广泛使用。作者实现了多层感知机，并选择了ReLU作为激活函数，提供了maxinum()函数的参考链接及Gluon实现的简要说明。

摘要由CSDN通过智能技术生成

多层感知机针对于中间有隐藏层的神经网络结构，对于数据的每一层传递都会相应的多一层[w,b]，这中间使用的传参函数称之为激活函数，如果激活函数是线性的话，那么就没什么意义，无论中间有多少层，其实和没有隐藏层是一样的，所以需要非线性的函数作为激活函数。

常使用的有sigmoid(),tanh(),Relu()等，sigmoid()函数在比较深的神经网络中容易出现梯度消失的情况，这是因为sigmoid在越远离原点的位置梯度趋近于零，Relu()函数在输入小于零时，会将数据转化为零，会丢失一些信息，不过影响不大，没什么关系，Relu()的优点主要是计算比较简单。

本次感知机的实现采用的激活函数为Relu()，多层感知机手动实现：

%matplotlib inline
import gluonbook as gb
from mxnet import nd
from mxnet.gluon import loss as gloss

#参数初始化
batch_size = 256
train_iter,test_iter = gb.load_data_fashion_mnist(batch_size)
num_inputs,num_outputs,num_hiddens = 784,10,512

w1 = nd.random.normal(scale = 0.01,shape = (num_inputs,num_hiddens))
b1 = nd.zeros(num_hiddens)
w2 = nd.random.normal(scale = 0.01,shape = (num_hiddens,num_outputs))
b2 = nd.zeros(num_output