[动手学深度学习]多层感知机学习笔记

夏莉莉iy

已于 2023-08-07 15:37:05 修改

阅读量114

点赞数

分类专栏：深度学习笔记文章标签：深度学习学习笔记人工智能数据分析图像处理

于 2023-08-05 20:49:47 首次发布

本文链接：https://blog.csdn.net/Sherlily/article/details/132118998

版权

深度学习笔记专栏收录该内容

12 篇文章 4 订阅

订阅专栏

动手学深度学习-李沐（视频）：10 多层感知机 + 代码实现 - 动手学深度学习v2_哔哩哔哩_bilibili

动手学深度学习-李沐（网页）：4. 多层感知机 — 动手学深度学习 2.0.0 documentation (d2l.ai)

⭐这是jupyter与torch结合的笔记！！！

5.1. VC维(Vapnik-Chervonenkis Dimension)

1. 感知机

1.1. 概念

（1）感知机是一种二元线性分类器，是最简单形式的前馈式人工神经网络（不同于softmax多分类）

（2）例子

1.2. 训练感知机

（1）训练步骤

①初始化w = 0, b = 0（和之前随机定义w不一样）

②重复判断 yi * (<w,xi>+b) 是否小于等于0（意思是yi是真实的种类的值，如1或-1，而<w,xi>+b是我们预测出来的种类1或-1，如果预测对了两个就都是同号，会得到大于0的值，错了则负值）

③如果预测错误（上面那个为负值进循环），则更新数据w←w+yixi，b←b+yi

④直到正确，退出循环

（2）等价于使用批量大小为1的梯度下降，并使用如下的损失函数（分类对了没梯度，错了才有）

（3）收敛定理

（4）感知机不能解决异或（XOR）问题，因为它不能用一根线把异或点分开

2. 多层感知机

2.1. 多层分类

（1）解决XOR问题

（2）隐藏层（可以单层也可以多层，不过最好一个比一个小，不然太大了）

（3）单隐藏层的单分类

σ激活函数很重要，这样才能真正实现多层。如果去掉σ的话，o实际上可以变为以下表示方法。这样就又回归单层感知机了

3. 激活函数

3.1. 激活函数的意义

（1）Change the erformance of deep learning networks (Bingham & Miikkulainen, 2022).

（2）使神经网络跳出单层线性转换

3.2. 常见激活函数

（1）ReLU（Rectified Linear Unit）

①公式

②用matplotlib画图

import matplotlib as mpl
import matplotlib.pyplot as plt
import torch

"""就是麻烦在这个点"""
fig, ax = plt.subplots()

x = torch.arange(-5,5,0.1)
y = torch.relu(x)

ax.plot(x,y)

③用李沐的d2l包画图

import torch

x = torch.arange(-5,5,0.1)
y = torch.relu(x)

d2l.plot(x,y)

④李沐的书上的

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.relu(x)
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))

⑤ReLU的导数图像和我自己的简洁代码

x = torch.arange(-5,5,0.1,requires_grad=True)
y = torch.relu(x)

y.backward(torch.ones_like(x))
d2l.plot(x.detach(),x.grad)

（2）Sigmoid

①公式

②代码和图像

x = torch.arange(-5,5,0.1,requires_grad=False)
"""纯纯调库罢了懒得写了"""
y = torch.sigmoid(x)

d2l.plot(x,y)

③导数公式（非常神奇的导数）

（3）tanh

①公式

②图像

③导数

4. 多层感知机的代码实现

4.1. 从零实现

（1）相当于自己写激活函数公式的函数吧... 我觉得没有太大的必要

4.2. 简洁实现

（1）代码

net = nn.Sequential(nn.Flatten(),
                    nn.Linear(784, 256),
                    nn.ReLU(),
                    nn.Linear(256, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);