目录
一 简介
二 理论基础
2.1 拟合和回归
2.2 逻辑回归假设函数
2.3 成本函数
2.4 参数学习(梯度下降)
三 Logistic回归的一般过程
四 基于Logistic回归和Sigmoid函数的分类
4.1 logistic回归的优缺点
4.2 Sigmoid函数
五 基于最优化方法的最佳回归系数确定
5.1 理论公式
5.2 训练算法:使用梯度上升找到最佳参数
5.3 分析数据:画出决策边界
5.4 训练算法随机梯度上升
5.5 改进的随机梯度上升算法
六 示例:从疝气病症预测病马的死亡率
6.1 代码实现
6.2 实现效果
七 小结
一、简介
逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型,所以也被称为对数几率回归。这里要注意,虽然带有回归的字眼,但是该模型是一种分类算法,逻辑斯谛回归是一种线性分类器,针对的是线性可分问题。利用logistic回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集,因此,logistic训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化方法
二、理论基础
原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概率作为方程的因变量估计值取值范围为0-1,但是,方程右边取值范围是无穷大或者无穷小。所以,才引入Logistic回归。
Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值 ,这个比值就是一个缓冲,将取值范围扩大,再进行对数变换,整个因变量改变。不仅如此,这种变换往往使得因变量和自变量之间呈线性关系,这是根据大量实践而总结。所以,Logistic回归从根本上解决因变量要不是连续变量怎么办的问题。还有,Logistic应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。
2.1拟合和回归
拟合:拟合是已知点列,从整体上靠近它们;插值是已知点列并且完全经过点列;逼近是已知曲线,或者点列,通过逼近使得构造的函数无限靠近它们。
回归:越来越接近期望值的过程,回归于事物的本质
2.2 逻辑回归假设函数
首先我们要先介绍一下Sigmoid函数,也就是经常说的logistic函数,它的几何形状也就是一条sigmoid曲线(S型曲线)
该函数具有如下的特性:
- 当x趋近于负无穷时,y趋近于0;
- 当x趋近于正无穷时,y趋近于1;
- 当x= 0时,y=0.5。
在线性回归问题中,假设函数具有如下形式:
在逻辑回归问题中,将该函数的形式转换为如下形式:
其中,函数g称为S型函数,它具有如下形式:
那么,逻辑回归的假设函数的形式即为:
2.3 成本函数
之所以有成本函数,就是为了评估参数值W是否合理。成