什么是回归分析?
回归分析是描述变量之间关系的一种统计分析方法。
在大数据中,回归分析通常用来预测分析数据,构建模型。
机器学习中比较常用的回归类型:线性回归(Linear Regression),逻辑回归(Logistic Regression)。
目录
线性回归
线性回归是假设特征和结果满足线性关系。
线性回归是在空间里,总的概述的函数关系。
它一般用在数据预测和分析关系上。
可以用函数进行映射:
梯度下降法
使用梯度下降法,来确定θ。θ在J(θ)最小的情况下确定。
梯度下降法的流程:
(1)随机选取θ的值,可以让θ为全零的向量。
(2)改变θ的值,使得θ按照梯度下降的方向进行减少。
梯度方向由偏导数确定的,由于求的是极小的值,因此梯度方向是偏导数的反方向。
最小二乘法
线性回归都可以通过最小二乘法求出其方程。求出θ为:
逻辑回归
逻辑回归本质上是线性回归模型 ,Logistic回归算法主要是利用了Sgimoid函数来为数据分类。
Sgimoid函数(logistic函数):
逻辑回归最典型的构造方法便是:极大似然估计。
似然函数:
线性回归和逻辑回归的区别
(1) 最大的区别在与因变量的不同。线性回归的因变量一般是连续的未知数, 而逻辑回归 y 是{0,1},作为因变量的分类标志。
(2) logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系。
(3) 线性回归得到一个拟合好的函数,用来预测 y 的值,而逻辑回归则是用来分类判断的。
损失函数
程序需要一种方法去评估θ的好坏,就需要对我们做出的 h 函数进行评估.这个函数是去对的估计值
与真实值差的平方和作为错误估计函数。这个函数称为损失函数(loss function):
注: (1)似然性与概率在多数情况下是相同的概念呢。我们在θ给定的情况下,称为似然性。
(2)最大似然估计是计算使得数据出现的可能性最大的参数,依仗的自然是Probability。而最小二乘是计算误差损失。
(3)梯度上升和梯度下降法的公式大致相同的,不同的是 h(θ)的不同。