目录
线性模型与回归
线性模型一般形式:
(xi 是 x 在第 i 个属性上的取值,x=(x1, x2, ..., xd)是由d维属性描述的样本)
向量形式可记为:
f ( x )= wT x + b(其中w=(w1, w2, ..., wd)为待求解系数)
线性回归(linear regression)目的:
学习一个线性模型以尽可能准确地预测实值输出标记
对数线性回归
线性回归模型:y=f(x)=wx+b 可推广至:y=g(f(x))=g(wx+b) (其中g为单调可微函数)
又例如设g(x)=ex,取y的对数,即lny,就可以得到对数线性
Logistic回归分析的基本原理
Logistic回归是统计学习中的经典分类方法,是一种十分常见的分类模型,它是研究因变量为二项分类或多项分类结果与某些影响因素之间关系的一种多重回归分析方法。其原理是根据现有的数据对分类边界线建立回归方程,得到最佳拟合参数集,从而实现数据的分类。通常Logistic回归适用于二值型输出分类。
Sigmod函数
Logistic回归的输出只有两种情况0 或 1,单位阶跃函数缺点不连续,故此引出替代函数——逻辑斯蒂函数(logistic/sigmoid function),其单调可微、任意阶可导
运用Sigmoid函数
Logistic回归:梯度下降
梯度下降(Gradient descent )是利用一阶的梯度信息找到函数局部最优解的一种方法,也是机器学习里面常用的一种优化方法。
基本思想:由于梯度方向是某一个函数值域变化最快的方向,所以要找函数的最值,最好的办法就是沿该函数的梯度方向寻找。
再线性回归模型中,假设自变量和因变量满足如下形式:
我们通常将参数的求解问题转化为求最小误差问题。 一般采用模型预测结果与真实结果的差的平方和作为损失函数(Loss Function):
为了找到使损失函数取得最小值时的参数θ(求最优解的一个过程)引入一个最优化算法——梯度下降算法。
梯度下降算法的迭代公式:(其中,α是步长,y(i)是真实值,h(x)是预测值,j表示第j个回归系数,i表示第i个样本)
算法实现
w0 = 4.12414349 w1 = 0.4800 w2=-0.6168
之前预测的直线方程0 = w0x0 + w1x1 + w2x2, 带入回归系数,确定边界
x2 = (-w0 - w1*x1) / w2
logistic 回归总结
logistic 回归是在线性回归的基础上加了一个 Sigmoid 函数(非线形)映射,使得逻辑回归称为了一个优秀的分类算法,解决的是分类问题,不仅预测出类别,还可得到近似概率预测,可直接应用现有数值优化算法(如牛顿法)求取最优解,具有快速、高效的特点。其优点是计算代价不高,易于理解与实现,但是容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
Logistic回归的算法编程
1.收集样本数据,并转化成我们需要的格式。
2.建立sigmod函数与最优化函数模型。
3.训练Logistic分类器,得到最优解,并画出最佳拟合曲线(也叫决策边界)。