CNN笔记

最新推荐文章于 2023-05-16 11:02:03 发布

WeissSama

最新推荐文章于 2023-05-16 11:02:03 发布

阅读量270

点赞数

分类专栏： Neural Network Deep Learning

本文链接：https://blog.csdn.net/Bismarckczy/article/details/82274411

版权

Deep Learning 同时被 2 个专栏收录

44 篇文章 1 订阅

订阅专栏

Neural Network

13 篇文章 0 订阅

订阅专栏

1 Truncated Normal
在初始化模型的weight的时候，通常使用 truncated_normal.

tf.truncated_normal(
    shape,
    mean=0.0,
    stddev=1.0,
    dtype=tf.float32,
    seed=None,
    name=None
)

tf中的介绍是：
The generated values follow a normal distribution with specified mean and standard deviation, except that values whose magnitude is more than 2 standard deviations from the mean are dropped and re-picked.
也就是两倍标准差之外的生成值都被移除，重新生成，保证所有生成数据都在标准差两倍之内。

2 Activation function ReLU
首先来看一下Sigmoid及其导数形式
f(x)=sigmoid(x)= $\frac{1}{1+e^{-x}}$
f’(x)=f(x)*(1-f(x))

Sigmoid的导数始终小于1，其最大值是0.25，如果有很多层网络，这些导数在相乘之后，值会迅速接近0，也就是梯度消失现象。
再来看看ReLU的形式。
Rectified linear unit: $f(x)=max(0,x)$
ReLU
这个激励函数看起来形式简单，但实际中效果比sigmoid和tanh效果都要好。
主要原因有两个：
第一，ReLU降低梯度消失现象额可能性，这是因为，在x>0的时候，梯度是一个常数，常数梯度也使得学习更快。
第二，ReLU的稀疏性，当x<0时，信号不会被激活。也就保证了部分节点是处于抑制状态。

WeissSama

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CNN笔记

1 Truncated Normal 在初始化模型的weight的时候，通常使用 truncated_normal.tf.truncated_normal( shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None)tf中的介绍是： The generate...
复制链接

扫一扫