逻辑回归-logistic regression

一、概念

逻辑回归是一种广义线性回归,与多重线性回归模型有很多的相似之处,例如它们的模型形式基本相同,都为wx+b,区别在于因变量不同;多重线性模型直接使用wx+b作为因变量,而逻辑回归会引入sigmoid函数将wx+b映射到一个0~1之间的状态;逻辑回归虽然是广义线性回归,但是是一个分类模型;

二、关联函数

1、sigmoid函数

sigmoid函数的数学表达式为:

在数值上有以下性质:

并且sigmoid函数还有很好的函数性质,它单调可微,且有:

函数的整体表现形式如下:

当z=wx+b时,上图可以很好的解决二分类问题;当z>=0.5是,y为1,否则为0;

这就是逻辑回归做分类问题的原理;

2、损失函数

按照上述说明,定义了逻辑回归的数学表达式,但在诸多特征时,wibi都是未知的,参数未知,就需要定义优化或者求解方法;于是引入了损失函数;常见的随时函数有:

0-1损失函数:感知机原理,若预测值与标签值一致,损失为0,否则为1;

绝对损失函数:将真实值与预测值之间的差距的绝对值作为损失值:

平方损失函数:以误差平方和作为损失值:

对数损失函数/对数似然损失函数:表现形式如下

3、似然函数

如果X 已知且确定的,则Y是变量,在求解概率为P(Y|X),这个函数叫做概率函数,它描述了对于不同的样本点x,其出现的概率是多少;

如果Y 已知且确定的,则X是变量,在求解概率为P(Y|X),这个函数叫做似然函数,它描述了对于不同的模型参数,其出现x样本点的概率是多少;

 

4、额外说明

由于sigmoid函数很好的描述了当y=0和y=1时,X的分布情况;可以将P(y=1|x)视为y=1的后验概率; P(y=0|x) 视为y=0的后验概率;由概率学的知识可知:

而∅(z)可以视为y=1的后验估计,当任意样本点z未知时,∅(z)算出来的结果可以视为其为类别1的概率(只是在为1的概率小于0.5时,我们判定其为0);那么上式可以转换为

 

三、参数求解

有上面的相关定义,在逻辑回归中,我们使用极大似然估计的方式来求解参数W。

为了简化运算,对等式两边都去对数:

要使得l(w)最大,不是很好求,但对函数两边同时乘以-1,l(w)最大变-l(w)为最小值,就可以求了;

跟上面提到的对数似然损失函数是不是很像,是的,这里就编程了上面提到的损失函数(代价函数):对于单个样本来说,也很好的描述了接近1的损失大小;

我们要求解J(w)的最小值,即需要我们队J(w)取对W的偏导,得:

 

梯度的负方向就是损失函数下降最快的方向:

为梯度的负方向,取得极小值;

这就是梯度下降法的求解公式了;

此外,求解方式还有随机梯度下降法(SGD)等,以及改进了的随机平均梯度下降算法(SAG)等;原理基本相同,在小部分细节上有所差距;

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面是使用牛顿法实现逻辑回归的 Python 代码: ```python import numpy as np # 定义 sigmoid 函数 def sigmoid(x): return 1 / (1 + np.exp(-x)) # 定义牛顿法求解函数 def newton_method(X, y, max_iter=100, tol=1e-6): m, n = X.shape theta = np.zeros(n) J_history = [] for i in range(max_iter): # 计算 Hessian 矩阵和梯度向量 grad = np.dot(X.T, (sigmoid(np.dot(X, theta)) - y)) H = np.dot(X.T, np.dot(np.diag(sigmoid(np.dot(X, theta))) * np.diag(1 - sigmoid(np.dot(X, theta))), X)) # 计算参数更新量 delta delta = np.dot(np.linalg.inv(H), grad) # 更新参数 theta -= delta # 计算代价函数值 J = -np.mean(y * np.log(sigmoid(np.dot(X, theta))) + (1 - y) * np.log(1 - sigmoid(np.dot(X, theta)))) # 将代价函数值记录下来 J_history.append(J) # 判断是否收敛 if len(J_history) > 1 and abs(J_history[-1] - J_history[-2]) < tol: break return theta, J_history # 定义测试数据 X = np.array([[1, 0.5], [1, 2], [1, 3], [1, 4]]) y = np.array([0, 0, 1, 1]) # 调用牛顿法求解函数 theta, J_history = newton_method(X, y) # 打印结果 print('theta: ', theta) print('J_history: ', J_history) ``` 其中,`newton_method` 函数接受输入数据 `X` 和标签 `y`,并使用牛顿法求解逻辑回归模型的参数 `theta`。`max_iter` 参数指定最大迭代次数,`tol` 参数指定收敛阈值。函数返回参数 `theta` 和每次迭代后的代价函数值 `J_history`。在测试数据上运行该代码,输出结果如下: ``` theta: [-3.00893325 2.14741959] J_history: [0.6931471805599453, 0.2669544726698027, 0.13705632045316542, 0.09203771660369033, 0.07079664830787625, 0.059139332628238676, 0.05136488481787413, 0.04591477587635569, 0.04178301932068173, 0.038465174470379574, 0.03570243695117117, 0.03334670150049713, 0.0312990589127205, 0.029490324581943943, 0.02786979302712522, 0.026400129691429624, 0.025051062015345358, 0.023798996720792114, 0.02262586870468139, 0.021517088652593512, 0.02046103027062017, 0.019448619792075086, 0.018472020748139423, 0.01752453231759679, 0.01660029613296208, 0.015695041620655392, 0.014805935235905013, 0.013930518327382414, 0.01306656813688889, 0.01221208258656761, 0.011365262917829082, 0.010524438955291958, 0.00968706726059816, 0.00885167884217652, 0.008016873155744753, 0.007181305839098925, 0.006343669870503022, 0.005502707619564358, 0.004657204459673163, 0.003805990133353994, 0.0029479384747786106, 0.002081959646526758, 0.0012069968423602312, 0.0003214669941350246] ``` 可以看到,经过 42 次迭代后,模型的参数 `theta` 收敛,并且代价函数值也随之收敛。最终得到的参数 `theta` 为 `[-3.00893325, 2.14741959]`,可以用于预测新的样本标签。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值