ML 六、分类问题 logistic regression逻辑回归

最新推荐文章于 2024-07-16 15:49:32 发布

月亮在偷看吖

最新推荐文章于 2024-07-16 15:49:32 发布

阅读量113

点赞数

分类专栏：机器学习文章标签：回归分类数据挖掘

本文链接：https://blog.csdn.net/QWxixi/article/details/121091072

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第六章：分类问题

把线性回归用于分类问题，不是一个好方法 —— 癌症的例子，增加一个特别容易判断的例子，反而影响了中间那部分的判断

logistic回归算法 - 逻辑回归算法

是一种分类算法

假设函数的表示方法

sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。
$h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$
我们假设 $h_\theta(x) \geq 0.5$ 则预测 $y = 1$ ，即 $\theta^Tx\geq0$

决策边界——是假设函数的一个属性，决定于假设函数（参数），不取决于数据集

如何拟合logistic模型的参数 $\theta$

首先要定义用来拟合参数的优化目标(代价函数)

整个模型：

我们有个训练集training set ${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),···，(x^{(m)},y^{(m)})}$

有m个样本examples，
$x\in \begin{bmatrix} x_0\\ x_1\\ ···\\ x_n \end{bmatrix}$
其中 $x_0 = 1,y\in \{0,1\}$

假设函数
$h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}$
那么我们如何选择参数 $\theta$ ？

我们定义一个代价函数，对于某个 $x_i$ ，利用假设函数 $h(x_i)$ 计算出预测值，和真实值（标签）进行比较，如差的平方的一半的平均，对于所有样本都这样算，采用算数平均:
$J(\theta) = \frac{1}{m}\sum_{i=1}^m{\frac{1}{2}(h_\theta(x_i)-y_i)^2}$

——但是这种方法，是非凸函数，在使用梯度下降的时候，容易陷入局部最优问题

所以，我们要找一个凸函数：
$Cost(h_\theta(x),y) = \left \{ \begin{aligned} -log(h_\theta(x))\quad if\: y = 1\\ -log(1-h_\theta(x))\quad if\: y = 0 \end{aligned} \right.$
在这个代价函数中，当y确实为1，而我们预测的 $h_\theta(x)$ 也趋近于1，则代价函数值很小；而y确实为1时，我们预测的 $h_\theta(x)$ 也趋近于0，那么代价函数值就很大，说明当前的参数不好，我们预测的不好，代价函数大。反之类似。

在这里插入图片描述

如何利用梯度下降法来拟合logistic回归的参数

上面的cost函数要分情况，我们想办法写在一起
$Cost(h_\theta(x),y) =-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$
——是凸函数

接下来要找到参数 $\theta$ 使得 $minJ(\theta)$ 最小

重复：

$\theta_j :=\theta_j - \alpha \frac{\partial}{\partial\theta_j} J(\theta)$
代入 $J(\theta)$ ,得：
$\theta_j :=\theta_j - \alpha \sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
这个式子虽然是一行，但是 $\theta$ 是n+1维的，使用for循环，i = 0 - > n

高级优化算法

优化算法

Gradient descent 梯度下降
Conjugate gradient
BFGS 共轭梯度法
L-BFGS

后面三个算法：

不用手动设置学习率 $\alpha$

有个智能内循环clever inner-loop，称为线搜索算法 line search algorithm
收敛速度远远快于梯度下降
缺点：更复杂

直接使用软件库，调用别人写好的函数

使用logistic解决多类别分类问题-”一对多“的分类算法

相当于是有三个分类器，为了实现预测，将x输入，求出三个 $h_\theta^{(i)}$ ，挑选出最大的

月亮在偷看吖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML 六、分类问题 logistic regression逻辑回归

第六章：分类问题把线性回归用于分类问题，不是一个好方法 —— 癌症的例子，增加一个特别容易判断的例子，反而影响了中间那部分的判断logistic回归算法 - 逻辑回归算法是一种分类算法假设函数的表示方法sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}hθ(x)=1+e−θTx1我们假设
复制链接

扫一扫