【分类算法】学习笔记(2)——逻辑回归

最新推荐文章于 2024-07-27 10:38:25 发布

ysc1006

最新推荐文章于 2024-07-27 10:38:25 发布

阅读量178

点赞数 1

分类专栏：机器学习文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/qq_31827399/article/details/100152086

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

Logistic regression
Logistic 回归分类器
逻辑回归需要解决的问题

Logistic regression

逻辑回归，“逻辑”之意与logistic 和 logit 的含义相差甚远，是指”对数“的意思，所以也叫**对数几率回归*；另外虽然叫” 回归 “，但实际是一种分类的方法，逻辑回归是一种线性分类器。

算法思想： 根据现有数据对分类边界线建立回归公式，以此进行分类。所以，训练算法的母的就是为了找到最佳的分类回归系数。
优点：算法简单，计算量小，速度快。
缺点 : 容易过拟合，一般准确度不高。

Logistic 回归分类器

逻辑回归主要是假设数据服从伯努利分布，然后通过极大似然函数的方法，运用梯度下降等方式进行求解参数，来达到将数据二分类的目的。

1、假设数据服从伯努利分布，假设样本为正的概率为 $p(y=1|x)=h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ ，则样本为负的概率为 $p(y=-1|x)=1-h_\theta(x)=\frac{e^{-\theta^Tx}}{1+e^{-\theta^Tx}}$ ，逻辑回归表达式为： $h_\theta(x;\theta)=\frac{1}{1+e^{-\theta^Tx}}\tag{1}$
2、使用极大似然函数作为损失函数，因为将极大似然函数取对数就等同于对数似然函数，在逻辑回归下，对数损失函数的训练求解参数的速度比较快。由于数据服从伯努利分布，所以最大化似然函数为：
$L_\theta(x)=\prod_i{h_\theta(x)^{y_i}(1-h_\theta(x))^{1-y_i}}\tag{2}$

对（2）式取对数为： $\ln L_\theta(x)=\sum_i{y_i \ln h_\theta(x)+(1-y_i) \ln (1-h_\theta(x))} \\ =\sum_i{y_i \ln \frac{1}{1+e^{-\theta^Tx_i}}+(1-y_i) \ln \frac{e^{-\theta^Tx_i}}{1+e^{-\theta^Tx_i}}}\\ =\sum_i{y_i \ln \frac{e^{\theta^Tx_i}}{1+e^{\theta^Tx_i}}+(1-y_i) (\ln \frac{1}{1+e^{\theta^Tx_i}})}\\ =\sum_i{y_i \theta^Tx_i+ \ln \frac{1}{1+e^{\theta^Tx_i}}}$
反之最小化如下函数： $L(\theta)= \sum_i{-y_i \theta^Tx_i+ \ln (1+e^{\theta^Tx_i})}\tag{3}$

3、用梯度下降法求解参数：
再对(3)中 $\theta$ 偏导： $\frac{\partial L(\theta)}{\partial \theta}= \sum_i{-y_i x_i+ \frac {e^{\theta^Tx_i}x_i}{1+e^{\theta^Tx_i}}}\\ = \sum_i{-y_i x_i+ x_i h_\theta(x_i)}\\ =\sum_i{(y_i-h_\theta(x_i))x_i}$ 参数更新公式为： $\theta^{t+1}=\theta^t+\alpha[y_i-h_\theta(x_i)]x_i$

逻辑回归需要解决的问题

易过拟合——在损失函数上加入正则项： $J(\theta)=L(\theta)+\lambda \|w\|_p$ 通过惩罚较大参数从而防止过拟合。
多分类问题——将sigmoid函数换成softmax函数： $p(y=i|x;\theta)=\frac{e^{\theta_i x}}{\sum_j {e^{\theta_j x}}}$
线性不可分问题——加入核函数

ysc1006

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【分类算法】学习笔记(2)——逻辑回归

文章目录Logistic regressionLogistic 回归分类器逻辑回归需要解决的问题Logistic regression逻辑回归，“逻辑”之意与logistic 和 logit 的含义相差甚远，是指”对数“的意思，所以也叫**对数几率回归*；另外虽然叫” 回归 “，但实际是一种分类的方法，逻辑回归是一种线性分类器。算法思想：根据现有数据对分类边界线建立回归公式，以此进行分类...
复制链接

扫一扫

专栏目录