机器学习（逻辑回归）

最新推荐文章于 2024-07-22 20:09:45 发布

chunqiuchan

最新推荐文章于 2024-07-22 20:09:45 发布

阅读量160

点赞数

文章标签：逻辑回归人工智能

本文链接：https://blog.csdn.net/qhdxoyy12345/article/details/128863953

版权

首先介绍一下分类学习，其输出的变量y，是从少量几个可能的值中得出的。

这部分是二分类的内容，也许后面有多分类再补充了。

只有两个可能的分类问题，称为二分类问题，通常用数字0和1来表示模型预测结果y，0为假，1为真。

逻辑函数 Sigmoid函数 $g(z) = \frac{1}{1+e^{-z}}$ ，则 0<g(z)<1，令 z = wx+b

所以预测函数为： $f_{w,b}(x) = g(wx+b) = \frac{1}{1+e^{-(wx+b)}}$ ，逻辑回归模型，它输入特征或特征集x，然后输出0到1之间的数字，这个输出可看作是：给定输入x的情况下，类别或标签y等于1的概率 $f_{w,b}(x) = P(y = 1|x:w,b)$

当 g(z) >= 0.5时，预测值y` = 1，则由逻辑函数为 z >= 0，即 wx+b >= 0

逻辑回归中的代价函数为

$L(f_{w,b}(x^{(i)},y^{(i)}) =\begin{Bmatrix} -log(f_{(w,b)}(x^{(i)})\, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, if\, \, y^{i}=1\\ -log(1-f_{(w,b)}(x^{(i)})\, \, \, \, \, \,if\, y^{i}=0 \end{Bmatrix}$

当 $y^{i} = 1$ 时， $f_{w,b}(x^{i}) \rightarrow 1$ ，则 $-log(f)\rightarrow 0$ ，即f->0，损失越小。

当 $y^{i} = 0$ 时， $f_{w,b}(x^{i})\rightarrow 0$ ，则 $-log(f)\rightarrow 0$ ，即f->0，损失越小。

如果把上面的代价函数写成一条比较简约的公式，可写为：

$L(f_{w,b}(x^{i}),y^{i}) = -y^{i}log(f_{w,b}(x^{i})) - (1-y^{i})log(1-f_{w,b}(x^{i}))$

再进行简化：

$J(w,b) = \frac{\sum_{n=1}^{m}[y^{i}log(f_{w,b}(x^{i}))+(1-y^{i})log(1-f_{w,b}(x^{i}))]}{m}$

然后是两条梯度函数

$\frac{\partial }{\partial wj}J(w,b) = \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})x_{j}^{i}$ ， $\frac{\partial }{\partial b}J(w,b) = \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})$

$wj = wj -\alpha \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})x_{j}^{i}$ ， $b = b -\alpha \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})$

下面是拟合的问题

欠拟合：模型对训练数据的拟合不足；过拟合：与数据吻合得太好了

泛化：即使是对没出现的数据样本其他模型，也能有很好的预测效果

解决过拟合和欠拟合的方法

过拟合：

1、收集更多的数据

2、适用更少的特征（不用太多的多项式特征）

3、正则化，尽可能地让算法缩小参数的值，而不是要求一定要把参数变成0.

正则化的作用是：它让你保留所有的特征，但防止特征权重过大，这有时会导致过拟合

假设

$w_{1}x+w_{2}x^{2}+w_{3}x^{3}+w_{4}x^{4}+b$ ，让w3和w4这两个参数变得非常小。

则用一个修改的代价函数

$min[\frac{\sum_{i=1}^{m}(f_{w,b}(x^{i})-y^{i})^{2}+1000w^{3}+1000w^{4}}{2m}]$

这里w3和w4的取值必须尽量地小，代价函数才会小。

参数值越小，模型可能会简单，也许是因为一个模型的特征变少了，那它过拟合的可能性也变小了。

正则化更多地是惩罚所有参数，让每个数据地参数都尽可能地小

所以在正则化后，代价函数为：

$J(w,b) = \frac{1}{2m}\sum_{i=1}^{m}(f_{w,b}(x^{i}) - y^{i})^{2}+\frac{\lambda }{m}\sum_{j=1}^{m}wj^{2}$

n：特征数量 $\lambda$ ：正则化参数 $\lambda$ >0（需要自己选）

至于参数b，惩罚与不惩罚并没有太大所谓

前一项的目标：拟合数据；后一项的目标：减小过拟合的风险

正则后梯度下降函数：

$\frac{\partial }{\partial wj}J(w,b) = \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})x_{j}^{i}$ $+\frac{\lambda }{m}wj$ ， $\frac{\partial }{\partial b}J(w,b) = \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})$

$wj = wj -\alpha \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})x_{j}^{i}$ $-\alpha \frac{\lambda }{m}wj$ ， $b = b -\alpha \frac{\sum_{i=1}^{m}}{m}(f_{w,b}(x^{i})-y^{i})$