Machine Learning：机器学习解读（三）

最新推荐文章于 2024-10-18 15:36:14 发布

CBssim

最新推荐文章于 2024-10-18 15:36:14 发布

阅读量416

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/CBssim/article/details/127064270

版权

模型优化&逻辑回归模型

导语
上一章知识链接（损失函数）
梯度下降（Gradient Descent）
逻辑回归模型（Logistic Regression Model）
逻辑回归模型的Loss函数
逻辑回归模型的梯度下降
总结

导语

对于这章内容，首先会讲解一下损失函数，然后讲解梯度下降，最后讲解逻辑回归模型。本来是想把自己做的一个逻辑回归模型在这放出来讲的，不过觉得模型还有待改善。总之，吊吊在看的朋友的胃口，可以期待一下。

废话不多说。

上一章知识链接（损失函数）

下表包含的对于各个量的标记符号。

专业术语	标记
特征（features)	x, `x_train`
目标（targets）	y,`y_train`
参数（parameters)	w(weight),b(bias),`w`,`b`
样本容量（parameters)	m,`m`
第i个样本（ $i_{th}$ Training Example)	$x^{(i)}$ , $y^{(i)}$ , `x_i`, `y_i`
第i个样本的预测值（The result of $i_{th}$ training Example)	$f_{w,b}(x^{(i)})$ ,`f_wb`
预测值（prediction)	$y - ha t$ ,`y-hat`

回想一下，你有一个Linear Regression Model，“ $y = w x + b$ ”，你初始化了它两个参数的值，输入特征值得到了一串预测值，通过损失函数与目标值，就得到了你初始的整个模型的损失有多大。

损失函数：

$\frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$

为什么咱们的损失函数定义成这样？

首先，在这一大坨里面，十分好理解的部分是： $f_{w,b}(x^{(i)}) - y^{(i)}$ ，就是第i个样本的预测值减去目标值（实际值），也就是损失的量。
为什么要平方呢？在这里，损失量可以说是一个标量，且得是一个正值。如果当预测值比目标值小，那么损失值就变成负数了，这不是我们机器学习体系所能理解的损失，反正，就不对了，因为损失得是一个量，跟正负没关系，所以要剔除正负号的影响。
求和部分很好理解，就是把所有样本的损失值加起来；除以m很好理解，因为咱们损失函数求整个模型的平均损失时，第一来的小，第二来的客观。
除以二的原因也很好理解。假设你初始的模型离理想的模型确实相差甚远，那么也就是说损失函数算出来的值很大。你可以在脑海里浮现 $y=x^2$ 的图像了。假设我们初始的参数使损失函数在一定程度上远离最低点的点上，我们要使我们到达最低点，也就是要让我们函数点的导数等于0对不对？那我们就需要用到求导了。现在你知道为什么除以2了吗？没错，就说是为了求导时跟平方抵消。

上一章末：我们是用梯度下降的方法降低损失，从而训练出线性回归模型。

梯度下降（Gradient Descent）

梯度下降分为两个步骤：对两个参数求偏导数；梯度减少两个参数的值。对于线性回归模型，直到两个偏导数无限接近0。

求导过程……你应该学会自己求“复合函数”的导数了，知道这里 $x^{(i)},y^{(i)}$ 变成常数也就是会求偏导数了。

两个偏导数分别是：

对参数w： $\frac{\partial J}{\partial w}=\frac{1}{m}\sum\limits_{i = 0}^{m-1}(f_{w,b}(x^{(i)}) - y^{(i)})x^{(i)}\tag{2}$
对参数b： $\frac{\partial J}{\partial b}=\frac{1}{m}\sum\limits_{i = 0}^{m-1}(f_{w,b}(x^{(i)}) - y^{(i)})\tag{3}$

梯度减少两个参数的方法:

对参数w： $w=w-\alpha\frac{\partial J}{\partial w}\tag{4}$
对参数b： $b=b-\alpha\frac{\partial J}{\partial b}\tag{5}$

$\alpha$ 是我们设置的learning rate，可以理解为你在函数高处梯度下山的步伐（梯度）的大小，不能太大，否则会使我们可能会错过最低点，却再也回不去（此时你每次更新参数后的损失会时大时小，也就是出现bug了），也不能太小，否则我们到达最低点所需时间会很长。
learning rate

“In machine learning and statistics, the learning rate $\alpha$ is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function.”

(参考文献：https://www.educative.io/answers/learning-rate-in-machine-learning)

那么我们要怎么知道合适的learning rate呢？
多试几个吧，合理范围内选最大的，最快（到达极限）的。

逻辑回归模型（Logistic Regression Model）

逻辑回归模型也是有监督的机器学习（Supervised Learning）的一种，它实现的功能就是分类，回归逻辑值，比如0/1，0表示否定，1表示肯定，反之亦可。

逻辑回归模型的learning algorithm：

$g(z)=\frac{1}{1+e^{(-z)}}\tag{6}$

$z = w x + b$

这个函数就是我们的sogmoid function了。不难看出，当z很大时，函数g接近1，当z很小时，函数g接近0。

sigmoid function

“For binary classification problems, a chosen method makes predictions that match the label scheme. Direct prediction is what we call the output of a method when its co-domain matches label values directly. Perceptrons make direct predictions because they output to either 0 or 1 for any point, which are taken as actual label values.”

(参考文献：https://ai-master.gitbooks.io/logistic-regression/content/sigmoid-function.html)

一般对于返回值为0或1的分类工作就会用sigmoid function。但是，我们看到函数会发现，它有处于0~1之间的部分，我们使大于0.5的判断为1，反之则判断为0，此时它的输出就只有0和1了。

逻辑回归模型的Loss函数

$f_{w,b}(x^{(i)}) = g(wx^{(i)} + b )$

$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) =-\log(f_{\mathbf{w},b}( \mathbf{x}^{(i)})) ,\text{if $y^{(i)}=1$}$

$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) =-\log(1 - f_{\mathbf{w},b}( \mathbf{x}^{(i)})) ,\text{if $y^{(i)}=0$}$

合并改进后如下

$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = -y^{(i)} \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) - \left( 1 - y^{(i)}\right) \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right)$

loss function
（图片里的 $h_{\theta}(x)$ 就是 $f_{w,b}(x^{(i)})$ 。）

当 $y = 1$ 时， $f_{w,b}(x^{(i)})$ 的值越接近0，loss趋于无穷大，因为 $y = - l o g (x)$ 在0~1之间是减函数，即 $-\log(f_{\mathbf{w},b}( \mathbf{x}^{(i)}))$ 为减函数。
当 $y = 0$ 时， $f_{w,b}(x^{(i)})$ 的值越接近1，loss趋于无穷大，因为 $y = - l o g (1 - x)$ 在0~1之间是增函数，即 $-\log(1-f_{\mathbf{w},b}( \mathbf{x}^{(i)}))$ 为增函数。