神经网络与深度学习课程学习笔记（第二章）

最新推荐文章于 2024-04-23 16:30:16 发布

P2Tree

最新推荐文章于 2024-04-23 16:30:16 发布

阅读量558

点赞数

分类专栏：学习笔记机器学习文章标签：神经网络 Andrew Ng

本文链接：https://blog.csdn.net/SiberiaBear/article/details/84348101

版权

本文是关于Andrew Ng教授的神经网络与深度学习课程的笔记，主要聚焦在第二章——神经网络基础。内容涵盖二分分类、logistic回归、代价函数、梯度下降法以及向量化等关键概念。通过对logistic回归的深入讲解，包括sigmoid函数、代价函数的优化及向量化实现，为后续的神经网络学习打下坚实基础。

摘要由CSDN通过智能技术生成

第二章神经网络基础

自学Andrew Ng老师的神经网络公开课，作一些笔记，老师讲的非常详细，通俗易懂，感觉不需要做第一章的笔记，所以没有

文章目录

第二章神经网络基础

2.1 二分分类

什么是二分分类问题，用图像中是否有小猫的例子来说明，图像的颜色像素数值是算法的输入，是否有小猫是算法的输出。
在logistic回归和神经网络中需要用到的关键符号，以及它们的表示方法。比如对于所有的训练样本，要写成一个大的矩阵，矩阵的每一列是一个训练样本输入，多个样本就横着写，训练样本的输出也是这样写，每一列是一个训练样本输出。

2.2 logistic回归

Logistic回归是一种监督学习算法，用来输出估计状态集合为0,1的学习结果。
我们的目的是输出估计的0或1，或者说，输出估计值为1的概率，如果采用线性函数：wx+b，无法输出两个状态，则我们使用sigmod函数，从而 $y = s (w x + b)$ 设 $z = w x + b$ 则 $y = s (z)$ sigmod函数可以在z为非常大时输出1，在z为非常小时输出0。
对于参数，一种写法时theta，theta0表示b，也就是x^0的参数，theta其他值对应w，教程中不使用theta而是使用w和b，更容易理解。

2.3 代价函数

右上角带括号的角标是指第i个样本，统一写法。
如何训练参数w和b，我们的目的是让y/hat与y的差距尽可能小，设计一个损失函数（误差函数），
$L(\hat y, y)$
这个函数可以是欧几里得距离，但是会在下一步梯度下降法时出现很多局部最优解，从而这里设计
$L(\hat y, y) = -ylogy-(1-y)log(1-y)$
这个公式也能做到损失函数的要求，还能够避免梯度下降法的局部最优解。
将所有的训练样本的损失函数求均值后，得到的值为代价函数
$J(w,b)=\frac {1}{m}\sum_i{L(\hat y^{i}, y^{i})}$
损失函数是针对单个训练样本，代价函数是所有训练样本损失函数的均值，用来控制整个模型的训练程度，我们的训练就是针对代价函数。

2.4 梯度下降法

本节就讲了上一节提出的代价函数，如何取得能够使代价函数最小的w和b的值，用到的方法就是梯度下降法。梯度下降法就是重复的更新w和b，每次更新的步长就是 $\alpha dw$ 和 $\alpha db$ ， $\alpha$ 是学习率，值越大，步长越大。然后后边还讲了导数和偏导数的概念，还好学过高数，不难。