ML：2-2-2 sigmoid 函数的替代方案

最新推荐文章于 2024-07-16 16:21:57 发布

skylar0

最新推荐文章于 2024-07-16 16:21:57 发布

阅读量894

点赞数 21

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/skylar0/article/details/135661497

版权

【吴恩达p62-64】

1. sigmoid function的替代方案

来看上周的例子，预测一个商品是否能成为消冠。
这里的awareness可能是binary的。人们要么知道/不知道。但事实上，可能是知道一点，完全知道…
因此，与其用0/1来预测（太简单了）或者0-1之间的数字，不如直接尝试预测awareness的概率。让awareness可以取到负值。
使用该方程，来预测awareness，会得到左侧的图像。如果想让a1_2取到大雨1的数字，在neural network里更常见的是使用右侧图像的这种activation【ReLU】，这样g(z)就可以取到所有非负数。

请添加图片描述
5. 一些常见的activation function：
（1） Linear activation function【也可以说没有使用任何activation function，因为会直接让a = wx+b】
（2）sigmoid
（3）RuLU

请添加图片描述

如何选择output layer的activation function，这取决于target label / 真实值y是什么。
（1）处理classification的问题，sigmoid function通常是最自然的选择。因为让neural network去预测y=1的概率，跟我们做logistic regression一样。
（2）处理regression问题时，如果y值可正可负（预测股价变化）建议用linear activation function。因为y值可+可-。
（3）处理regression问题时，如果y值只能是非负数，那么就用ReLU。
如何选择hidden layer的activation function：
1. ReLU是neural network里最常见的一种选择。
  原因一：ReLU只有一个部分是平坦的，sigmoid有2部分，flat会导致gradient descent很慢。因为flat会导致cost function的偏导约等于0.
  原因二：它计算更快。