多层感知机的从零开始实现

最新推荐文章于 2023-06-04 10:03:44 发布

托尼stark

最新推荐文章于 2023-06-04 10:03:44 发布

阅读量260

点赞数

分类专栏：动手深度学习(Pytorch) 文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/qq_40808154/article/details/120280359

版权

动手深度学习(Pytorch) 专栏收录该内容

14 篇文章 5 订阅

订阅专栏

多层感知机(multilayer perception,MLP)在单层神经网络的基础上引入了一到多个隐藏层，隐藏层位于输入层和输出层之间，此前线性回归和softmax回归在内的都属于单层神经网络。

上述问题的根源在于：全连接层只是对数据做仿射变换，而多个仿射变换的叠加仍然是仿射变换，解决问题的一个方法是引入非线性变换，例如对隐藏变量使用按元素运算的非线性函数进行变换，然后在作为下一个全连接层的输入。这个非线性函数被称为激活函数。

仿射变换：简单来说就是"线性变换"+"平移"。仿射变换从几何直观主要有以下两个要点：(1) 变换前是直线的变换后依然是直线。（2）直线比例保持不变。具体介绍看知乎大神的讲解：https://www.zhihu.com/question/20666664

代码如下：

import torch
import numpy as np
import sys
sys.path.append('..')
import painting as pt

#1.获取和读取数据
batch_size=256
train_iter,test_iter=pt.load_data_fashion_mnist(batch_size)

#2.定义模型参数
"""
Fashion-MNIST数据集中图像形状为28x28，类别数为10，本节依然使用长度为28x28=784
的向量表示每一张图像。因此输入个数为784，输出个数为10，实验中设置超参数隐藏单元个数为256
"""
num_inputs,num_outputs,num_hiddens=784,10,256
W1=torch.tensor(np.random.normal(0,0.01,(num_inputs,num_hiddens)),dtype=torch.float32)
b1=torch.zeros(num_hiddens,dtype=torch.float32)
W2=torch.tensor(np.random.normal(0,0.01,(num_hiddens,num_outputs)),dtype=torch.float32)
b2=torch.zeros(num_outputs,dtype=torch.float32)

params=[W1,b1,W2,b2]
for param in params:
    param.requires_grad_(True)

#3.定义激活函数:此处使用基础的max函数来实现ReLU，而非直接调用ReLU函数。
def relu(X):
    return torch.max(input=X,other=torch.tensor(0.0))

#4.定义模型:同softmax回归一样，通过view函数将每张原始图像改成长度为num_inputs的向量
def net(X):
    X=X.view(-1,num_inputs)
    H=relu(torch.matmul(X,W1)+b1)
    return torch.matmul(H,W2)+b2

#5.定义损失函数:使用Pytorch提供的softmax计算和交叉熵损失计算的函数
loss=torch.nn.CrossEntropyLoss()

#6.训练模型
num_epochs,lr=5,100.0
pt.train(net,train_iter,test_iter,loss,num_epochs,batch_size,params,lr)

托尼stark

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多层感知机的从零开始实现

多层感知机(multilayer perception,MLP)在单层神经网络的基础上引入了一到多个隐藏层，隐藏层位于输入层和输出层之间，此前线性回归和softmax回归在内的都属于单层神经网络。上述问题的根源在于：全连接层只是对数据做仿射变换，而多个仿射变换的叠加仍然是仿射变换，解决问题的一个方法是引入非线性变换，例如对隐藏变量使用按元素运算的非线性函数进行变换，然后在作为下一个全连接层的输入。这个非线性函数被称为激活函数。仿射变换：简单来说就是"线性变换"+"平移"。仿射变换从几何直观主要.
复制链接

扫一扫