人工智能-深度学习笔记2 猫和非猫引起的二分类

最新推荐文章于 2024-06-22 16:08:42 发布

clyfk

最新推荐文章于 2024-06-22 16:08:42 发布

阅读量933

点赞数

分类专栏： MachineLearning 文章标签：神经网络逻辑回归

MachineLearning 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在学习神经网络基础知识时，需要注意的是，去实现一个神经网络时，是需要知道一些非常重要的技术和技巧的：例如数据集，该如何表示和处理呢?；选用什么的算法方式呢，激活函数的确定；成本函数和代价函数怎么确定？；多少也得知道前向传播和反向传播的过程以及会产生怎样的结果吧。

在学习什么是神经网络时拿线性回归做了示例，此次将以猫和非猫的二分类问题来传达以上的这些想法，逻辑回归是解决二分类(binary classification)的经典算法。将学习如何使用逻辑回归(logistic regression)的算法来描述这些非常重要的技术和技巧。

1、猫和非猫二分类问题的数据

猫和非猫，很明显的二分类问题，比如这只猫，如果识别这张图片为猫，则输出标签1作为结果；如果识别出不是猫，那么输出标签0作为结果（这就是著名的cat和non cat问题）。现在可以用字母y来表示输出的结果标签，如下图所示：

先来看看一张图片在计算机中是如何表示的，为了保存一张图片，需要保存三个矩阵，它们分别对应图片中的红、绿、蓝三种颜色通道，如果图片大小为64x64像素，那么你就有三个规模为64x64的矩阵，分别对应图片中红、绿、蓝三种像素值。为了便于表示，这里画了三个很小的矩阵，注意它们的规模为5x4 而不是64x64，如下图所示：

为了把这些像素值放到一个特征向量（特征向量！这个是很多神经网络的核心思维！）中，需要把这些像素值提取出来，然后放入一个特征向量x。为了把这些像素值转换为特征向量 x，需要像下面这样定义一个特征向量 x 来表示这张图片，假设把所有的像素都取出来，例如255、231等等，直到取完所有的红色像素，接着最后是255、134、…、255、134等等，直到得到一个特征向量，把图片中所有的红、绿、蓝像素值都列出来。（可以想象成把所有像素值并成一列或者一排），如果图片的大小为64x64像素，那么向量 x 的总维度，将是64乘以64乘以3，这是三个像素矩阵中像素的总量。结果为12,288。现在用n_x=12,288，来表示输入特征向量的维度，有时候为了简洁，会直接用小写的n来表示输入特征向量x的维度。所以在二分类问题中，最终目标就是习得一个分类器，它以图片的特征向量作为输入，然后预测输出结果y为1还是0，也就是预测图片中是否有猫：

好了，至此数据表示的基本形式就有了，接下来将说明一些需要用到的符号，相信大家对向量和矩阵不陌生了吧，上面两段文字中都有加粗啊。

x：表示一个n_x维数据，为输入数据，维度为(n_x,1)；

y：表示输出结果，取值为(0,1)；

(x^(i),y^(i))（代表x的（i）上标，y的（i）上标）：表示第i组数据，可能是训练数据，也可能是测试数据；

X=[x^(1),x^(2),...,x^(m)]：表示所有的训练数据集的输入值，放在一个 n_x×m的矩阵中，其中m表示样本数目;

Y=[y^(1),y^(2),...,y^(m)]：对应表示所有训练数据集的输出值，维度为1×m。

用一对(x,y)来表示一个单独的样本，x代表n_x维的特征向量，y 表示标签(输出结果)只能为0或1。而训练集将由m个训练样本组成，其中(x^(1),y^(1))表示第一个样本的输入和输出，(x^(2),y^(2))表示第二个样本的输入和输出，直到最后一个样本(x^(m),y^(m))，然后所有的这些一起表示整个训练集。有时候为了强调这是训练样本的个数，会写作M_train，当涉及到测试集的时候，会使用M_test来表示测试集的样本数，所以这是测试集的样本数：

最后为了能把训练集表示得更紧凑一点，定义一个矩阵用大写X的表示，它由输入向量x^(1)、x^(2)等组成，如下图放在矩阵的列中，把x^(1)作为第一列放在矩阵中，x^(2)作为第二列，x^(m)放到第m列，然后就得到了训练集矩阵X。所以这个矩阵有m列，m是训练集的样本数量，然后这个矩阵的高度记为n_x，注意有时候可能因为其他某些原因，矩阵X会由训练样本按照行堆叠起来而不是列，如下图所示：x^(1)的转置直到x^(m)的转置，打了个大X的图示。

X是一个规模为n_x乘以m的矩阵，当用Python实现的时候，会看到X.shape，这是一条Python命令，用于显示矩阵的规模，即X.shape等于(n_x,m)，X是一个规模为n_x乘以m的矩阵。到此，就描述完了如何将训练样本（输入向量X的集合）表示成为了一个矩阵。

那么输出标签y呢？同样的道理，为了能更加容易地实现一个神经网络，如上将标签y放在列中将会使得后续计算非常方便，所以定义大写的Y等于y^(1),y^(m),...,y^(m)，在这里就是一个规模为1乘以m的矩阵，同样地使用Python将表示为Y.shape等于(1,m)，表示这是一个规模为1乘以m的矩阵。

将不同的训练样本的数据提取出来，然后就像刚刚对 x 或者 y 所做的那样，将他们堆叠在矩阵的列中，形成之后会在逻辑回归和神经网络上要用到的符号表示。一个好的符号约定能够将不同训练样本的数据很好地组织起来。

2、逻辑回归(Logistic Regression)

适用于二分类问题，可用来计算“事件=Success”和“事件=Failure”的概率。因变量的类型属于二元（1 / 0，真/假，是/否）变量。先来看看下面的这个函数：

Sigmoid函数可以将变量映射到0,1之间，当x趋近于负无穷时，y趋近于0；当x趋近于正无穷时，y趋近于1；当x= 0时，y=0.5。优点：输出映射在(0,1)之间，单调连续，输出范围有限，优化稳定，可以用作输出层；求导容易。缺点：由于其软饱和性，容易产生梯度消失，导致训练出现问题；其输出并不是以0为中心的。应用最广泛的就是逻辑回归的分类问题。至于缺点后面再慢慢学习，修正之。

对于1中的二元分类问题来讲，给定一个输入特征向量X，它可能对应一张图片，想要识别这张图片看它是否是一只猫或者不是一只猫的图片，想要一个算法能够输出预测，这里称之为y^（也就是预测值），也就是对实际值 y 的估计。更正式地来说，想让 y^ 表示 y 等于1的一种可能性或者是机会，前提条件是给定了输入特征X。换句话来说，如果X是上面猫的图片，就是想让 y ^来说明这是一只猫的图片的机率有多大。X是一个n_x维的向量（相当于有n_x个特征的特征向量）。这里用w来表示逻辑回归的参数，这也是一个n_x维向量（因为w实际上是特征权重，维度与特征向量相同），参数里面还有b，这是一个实数（表示偏差）。所以给出输入x以及参数w和b之后，怎样产生输出预测值y^，学习笔记1里面可能得到这个式子y^=(w^T) x+b。

这里得到的是一个关于输入x的线性函数，实际上这是上节学习笔记中做线性回归时所用到的，但是这对于二元分类问题来讲不是一个非常好的算法，因为想让y^表示实际值y等于1的机率的话，y ^应该在0到1之间。这是一个需要解决的问题，因为(w^T)x+b可能比1要大得多，或者甚至为一个负值。对于想要的在0和1之间的概率来说它是没有意义的，因此在逻辑回归中，输出应该是^y等于由上面得到的线性函数式子作为自变量的某个函数中，公式如上图最下面output所示，将线性函数转换为非线性函数（线性变成非线性函数，这个技巧要记得！）。正巧刚刚学习一个这样的函数Sigmoid函数。想想这个激活函数，此时的作用是啥呢？

下面将Sigmoid函数和特征向量结合起来并说明一些需要用到的符号：

如果把上图左水平轴作为z轴，那么关于z的sigmoid函数是这样的，它是平滑地从0走向1，这里标记纵轴，这是0，曲线与纵轴相交的截距是0.5，这就是关于z的sigmoid函数的图像。这里使用z来表示(w^T) x+b的值。关于sigmoid函数的公式就变成了这样σ(z)=1/(1+e^(-z) )，在这里z是一个实数，如果z非常大那么e^(-z)将会接近于0，关于z的sigmoid函数将会近似等于1除以1加上某个非常接近于0的项，因为e 的指数如果是个绝对值很大的负数的话，这项将会接近于0，所以如果z很大的话那么关于z的sigmoid函数会非常接近1。相反地，如果z非常小或者说是一个绝对值很大的负数，那么关于e^(-z)这项会变成一个很大的数，可以认为这是1除以1加上一个非常非常大的数，所以这个就接近于0。实际上当z变成一个绝对值很大的负数，关于z的sigmoid函数就会非常接近于0，因此在实现逻辑回归时，最终的工作就是去让机器学习参数w以及b使得y^成为对y=1|0这一情况的概率的一个很好的估计。

这里介绍一种符号惯例，可以让参数w和参数b分开。在符号上要注意的一点是当对神经网络进行编程时经常会让参数w和参数b分开，在这里参数b对应的是一种偏置，在某些例子里，可以定义一个额外的特征称之为x_0，并且使它等于1，那么现在X就是一个n_x加1维的变量，然后定义y^=σ(θ^T x)的sigmoid函数。在这样的符号惯例里中，有一个参数向量θ_0,θ_1,θ_2,...,θ_(n_x )，这样θ_0就充当了b，这是一个实数向量，而剩下的θ_1 直到θ_(n_x )充当了w，结果就是当实现神经网络时，有一个比较简单的方法保持b和w分开。

现在已经知道逻辑回归模型是什么样子了，下一步要做的就是训练参数w和参数b，上节笔记中有个线性回归的例子里面有个最小二乘的损失函数，这里依然需要定义一个类似的函数。

3、逻辑回归的代价函数（Cost Function）

为什么需要代价函数？与损失函数又有什么区别？

为了训练逻辑回归模型的参数 w和参数b，需要一个这样的（代价）函数，通过训练这个（代价）函数来得到参数w和参数b 。

为了让模型通过学习调整参数，需要给予一个m样本的训练集，在训练集上找到参数w和参数b，来得到对应的输出。对训练集的预测值，这里将它写成y^，此时是更希望它会接近于训练集中的y值，为了对上面的公式更详细的介绍，上面的定义是对一个训练样本来说的，这种形式也使用于每个训练样本，使用这些带有圆括号的上标来区分索引和样本，训练样本所对应的预测值是 y(i),是用训练样本的 (w^T) (x^(i))+b 然后通过sigmoid函数来得到，也可以把z定义为。使用这个符号(i)做注解，上标(i) 指明数据表示x或者y 或者z或者其他数据的第i个训练样本，这就是上标(i) 的含义。

损失函数又叫做误差函数，用来衡量算法的运行情况，后续的网络判定与评估性能就是要找到一个合适的loss，Loss function:还记得线性回归中的最小二乘法么，来看看下面的这个函数：

通过这个称为L的损失函数，来衡量预测输出值和实际值有多接近。线性回归中采用了预测值和实际值的平方差或者它们平方差的一半，但是通常在逻辑回归中不这么做，因为当在学习逻辑回归参数的时候，会发现此时的优化目标不是凸优化，只能找到多个局部最优值，梯度下降法很可能找不到全局最优值，虽然平方差是一个不错的损失函数，但是在逻辑回归模型中会定义如上的损失函数。

为什么要用这个函数作为逻辑损失函数？

当使用平方误差作为损失函数的时候，会想着要让这个误差尽可能地小，对于这个逻辑回归损失函数，也是想让它尽可能地小，为了更好地理解这个损失函数怎么起作用，举两个例子(y^代表预测值）：大家自由搜索下log函数的图形是啥？

当y = 1时损失函数L = -log(y^)，如果想要损失函数L尽可能得小，那么y^就要尽可能大，因为sigmoid函数取值 [0,1]，所以 y^会无限接近于1。

当y = 0 时损失函数L = -log(1 - y^) ，如果想要损失函数L尽可能得小，那么y^ 就要尽可能小，因为sigmoid函数取值，所以y^会无限接近于0。

神经网络中有很多用到的函数效果和这个类似，就是如果y等于1，就尽可能让y^变大，如果y 等于0，就尽可能让y^变小。损失函数是在单个训练样本中定义的，它衡量的是算法在单个训练样本中表现如何，为了衡量算法在全部训练样本上的表现如何，这时就需要定义一个算法的代价函数(代价函数用J表达），算法的代价函数是对m个样本的损失函数求和然后除以 m(因为要均值化） :