吴恩达深度学习第一课（神经网络与深度学习基础）--第二周神经网络基础

最新推荐文章于 2024-06-03 19:13:42 发布

zhaohuan_1996

最新推荐文章于 2024-06-03 19:13:42 发布

阅读量175

点赞数

分类专栏：深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/qq_37199669/article/details/104215557

版权

深度学习专栏收录该内容

33 篇文章 2 订阅

订阅专栏

文章目录

第二周神经网络基础

第二周神经网络基础

$过程：输入x，计算机通过一系列计算，得出\hat y，我们希望计算而来的\hat y与期望中的y无限接近。$
$举个例子，给计算机输入一张猫猫的图片，计算机得出一个结果\hat y，我们希望\hat y无限接近期望中的结果‘猫猫’。$
$所以我们用损失函数将\hat y转化为0-1的概率值，但损失函数针对单个样本，而成本函数针对所有样本的损失函数和。$

logistic回归

$输入一个64*64的图片，计算机将此图片存储为大小为64*64*3=12288大小的特征向量n_x=\begin{bmatrix} . \\ . \\.\\. \end{bmatrix} 。（x,y）， x \in R^{n_x} ， y\in{0,1} ，m_{train}={(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),{\dots},(x^{(m)},y^{(m)})},m_{test}。$
$若x=\begin{bmatrix} x^{(1)}&&x^{(2)} &&{\dots} && x^{(m)} \end{bmatrix} ，则x=R^{n_x*m},x.shape=(n_x,m)。$
$若y=\begin{bmatrix} y^{(1)}&&y^{(2)} &&{\dots} && y^{(m)} \end{bmatrix} ,则y\in R^{1*m},y.shape=(1,m)。我们希望\hat y无线接近y，则\hat y \in (0,1)，x\in R^{n_x},w\in R^{n_x},b\in R,\hat y=\delta(w^Tx+b),\delta(z)=\frac{1}{1+e^{-z}}。$
$若z\uparrow，则\delta \approx \frac{1}{1+0}\approx 1;$
$若z\downarrow，则\delta \approx \frac{1}{x+\infty}\approx0。$

损失函数loss function

$(\hat y,y)=\frac {1}{2}(\hat y - y)^2，但通常使用L = -(y\log_2 \hat y+(1-y)log_2(1-\hat y))。$
$若y=1，L(\hat y,y)=-ylog_2\hat y,希望log_2 \hat y \uparrow,则\hat y \uparrow。$
$若y=0，L(\hat y,y)=log_2 (1-\hat y),希望log(1-\hat y)\uparrow，则\hat y \downarrow$

$来衡量单个样本预测输出值\hat y和y的实际值有多接近。$

成本函数cost function

$function:J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat y^{(i)},y^{i})=-\frac{1}{m} \sum_{i=1}^m[y^{(i)}log_2\hat y^{(i)}+(1-y^{(i)})log_2(1-\hat y^{(i)})].$

$梳理：为何使用成本函数？来衡量所有样本的损失函数和。$

梯度下降

$w=w-\alpha \frac{\partial J(w,b)}{\partial w};b=b-\alpha \frac{\partial J(w,b)}{\partial b}$
$其中，\alpha是learning rate学习率，可以控制每一次迭代或梯度下降法的步长。$
$\frac{\partial J(w,b)}{\partial w}是对w偏导。$
上述公式，可以看出这是三维空间的立体图形，通过不断修正w和b，使得w和b最终归到图形中最凹点或最凸点处。
$梳理：为何使用梯度下降？为了训练或学习训练集上的参数 w, b$