cs231n-学习笔记-04神经网络

最新推荐文章于 2021-01-08 00:48:27 发布

cheertt

最新推荐文章于 2021-01-08 00:48:27 发布

阅读量150

点赞数

分类专栏：深度学习文章标签： cs231n

本文链接：https://blog.csdn.net/ltt960212/article/details/82665156

版权

深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

神经网络

1 简介

之前，线性评分函数： $f=Wx$

现在，二层神经网络： $f=W_{2}max(0, W_{1}x)$

或者三层神经网路： $f=W_{3}max(0,W_{2}max(0,W_{1}x))$

实现训练一个2层的神经网络大概需要20行代码

import numpy as np
from numpy.random import randn

N, D_in, H, D_out = 64, 1000, 100, 10
x, y = randn(N, D_in), randn(N, D_out)
w1, w2 = randn(D_in, H), randn(H, D_out)

for t in range(2000):
    h = 1 / (1 + np.exp(-x.dot(w1)))
    y_pred = h.dot(w2)
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h.T.dot(grad_y_pred)
    grad_h = grad_y_pred.dot(w2.T)
    grad_w1 = x.T.dot(grad_h * h * (1 - h))

    w1 -= 1e-4 * grad_w1
    w2 -= 1e-4 * grad_w2

2 激活函数

神经元有能力“喜欢”（激活函数值接近1），或者不喜欢（接货函数接近0）输入空间中的某些线性区域

在SVM/Softmax的例子中，正则化损失从生物学角度可以看做逐渐遗忘，因为它的效果是让所有突触权重 $w$ 在参数更新过程中逐渐向着0变化。

（1）Sigmoid： $\sigma (x)=\frac{1}{1+e^{-x}}$

（2）tanh： $tanh(x)$ 其中， $tanh(x)=2\sigma (2x)-1$

（3）relu： $max(0,x)$

（4）Leaky relu： $max(0.1x, x)$ 为解决relu死亡问题的尝试

（5）maxout： $max(w_{1}^{T}x+b1,w_{2}^{T}x+b2)$

（6）elu： $\left\{\begin{matrix} x & x\geqslant 0\\ \alpha (e^{x}-1) & x < 0\end{matrix}\right.$

sigmoid的两个缺点

① Sigmoid函数饱和和使梯度消失；

② Sigmoid函数的输出中心不是零中心的；

relu优缺点

优点：

① 相较于sigmoid和tanh函数，relu对于随机梯度下降有着巨大的收敛作用；

② sigmoid和tanh神经元含有指数运算等耗费计算资源的操作，而relu可以通过对一个矩阵进行阈值计算得到；

缺点：

① 在训练的时候，relu单元比较脆弱并且可能“死掉”。通过合理降低学习率，这种情况发生的概率会降低

注：

在同一网络中混合使用不同类型的神经元是非常少见的，虽然没有什么根本性问题来禁止这么做。