深度学习第三课 多层感知机

本文探讨了多层感知机的神经网络结构,强调了隐藏层和非线性激活函数的重要性。文章指出,sigmoid激活函数在深层网络中可能导致梯度消失问题,而ReLU函数虽然在负数区域将数据置零但因其简单计算和较小影响而被广泛使用。作者实现了多层感知机,并选择了ReLU作为激活函数,提供了maxinum()函数的参考链接及Gluon实现的简要说明。
摘要由CSDN通过智能技术生成

        多层感知机针对于中间有隐藏层的神经网络结构,对于数据的每一层传递都会相应的多一层[w,b],这中间使用的传参函数称之为激活函数,如果激活函数是线性的话,那么就没什么意义,无论中间有多少层,其实和没有隐藏层是一样的,所以需要非线性的函数作为激活函数。

        常使用的有sigmoid(),tanh(),Relu()等,sigmoid()函数在比较深的神经网络中容易出现梯度消失的情况,这是因为sigmoid在越远离原点的位置梯度趋近于零,Relu()函数在输入小于零时,会将数据转化为零,会丢失一些信息,不过影响不大,没什么关系,Relu()的优点主要是计算比较简单。

        本次感知机的实现采用的激活函数为Relu(),多层感知机手动实现:

%matplotlib inline
import gluonbook as gb
from mxnet import nd
from mxnet.gluon import loss as gloss

#参数初始化
batch_size = 256
train_iter,test_iter = gb.load_data_fashion_mnist(batch_size)
num_inputs,num_outputs,num_hiddens = 784,10,512

w1 = nd.random.normal(scale = 0.01,shape = (num_inputs,num_hiddens))
b1 = nd.zeros(num_hiddens)
w2 = nd.random.normal(scale = 0.01,shape = (num_hiddens,num_outputs))
b2 = nd.zeros(num_output
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值