ML:2-2-2 sigmoid 函数的替代方案


【吴恩达p62-64】

1. sigmoid function的替代方案

  1. 来看上周的例子,预测一个商品是否能成为消冠。
  2. 这里的awareness可能是binary的。人们要么知道/不知道。但事实上,可能是知道一点,完全知道…
  3. 因此,与其用0/1来预测(太简单了)或者0-1之间的数字,不如直接尝试预测awareness的概率。让awareness可以取到负值。
  4. 使用该方程,来预测awareness,会得到左侧的图像。如果想让a1_2取到大雨1的数字,在neural network里更常见的是使用右侧图像的这种activation【ReLU】,这样g(z)就可以取到所有非负数。

请添加图片描述
5. 一些常见的activation function:
(1) Linear activation function【也可以说没有使用任何activation function, 因为会直接让a = wx+b】
(2)sigmoid
(3)RuLU

请添加图片描述

2. 如何选择activation function

  1. 如何选择output layer的activation function,这取决于target label / 真实值y是什么。
    (1)处理classification的问题,sigmoid function通常是最自然的选择。因为让neural network去预测y=1的概率,跟我们做logistic regression一样。
    (2)处理regression问题时,如果y值可正可负(预测股价变化)建议用linear activation function。因为y值可+可-。
    (3)处理regression问题时,如果y值只能是非负数,那么就用ReLU
    请添加图片描述
  2. 如何选择hidden layer的activation function:
    1. ReLU是neural network里最常见的一种选择。
      原因一:ReLU只有一个部分是平坦的,sigmoid有2部分,flat会导致gradient descent很慢。因为flat会导致cost function的偏导约等于0.
      原因二:它计算更快
      请添加图片描述
      请添加图片描述

3. 为什么模型需要activation function

  1. 如果model全用linear activation function在所有的neuron会怎么样?
    这个模型会完全等于linear regression。

请添加图片描述

  • 这个模型会完全等于linear regression。(过程)

请添加图片描述

  • 如果所有的hidden layer都用linear activation function,只有output layer用logistic activation function的话,这个模型会完全等于logistic regression。
    请添加图片描述
  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值