1、机器学习之回归

回归

监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。响应变量(因变量)Y必须为连续变量,预测变量(自变量)可以是离散也可以是连续变量或者是分类变量。

1、一元线性回归(简单线性回归):

只考虑一个因变量和一个自变量之间的关系。线性模型的参数估计采用了最小二乘法的思想,但基于该思想是有前提假设的:
1)(残差)正态性假设:随机误差项服从均值为0,标准差为sigma的正态分布;当预测变量值固定时,因变量成正态分布,则残差图也应是一个均值为0的正态颁。
2)独立性:因变量y之间相互独立,即互不影响;
3)线性关系:因变量与自变量之间必须满足线性相关;
4)同方差性:随机误差项满足方差齐性;
只有线性模型满足以上几个假设条件,通过最小二乘法得到的结果才可能比较准确。

最小二乘法的基本思想:最有代表性的直线应该是直线到各点的距离最近。然后用这条直线进行预测。最小二乘法的原则是所有观察值的残差平方和达到最小确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

2、多元线性回归

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计。
1)、逐步回归
最优回归方程的选择:方法有“一切自己回归法”、“前进法”、“后退法”、“逐步回归法”等,其中“逐步回归法”由于计算机程序简便,使用较为普遍。
逐步回归法:函数step(),是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。
2)、回归诊断:异常样品的存在往往会给回归模型带来不稳定,所以提出了回归诊断的问题
残差:判断模型的参数是否符合正态性分布,QQ图可以检验残差的正态性。
多重共线性:一个变量可以由其他变量求出,例如,学生的总成绩可以由各科成绩求出。
3)、异常观测值
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
①离群点是指模型预测效果不佳的观测点,它们通常有很大的、或正或负的残差。正的残差说明模型低估了响应值,负的残差则说明高估了响应值。
②强影响点对模型参数的估计产生的影响过大,非常不成比例,若移除模型的一个观测点时模型会发生巨大的改变,强影响点可以通过Cook距离、DFFITS、 DFBETAS来鉴别。
③高杠杆值观测点,即是与其他预测变量有关的离群点,即它们是由许多异常的预测变量组合起来的,与响应变量值没有关系。高杠杆值的观测点可通过帽子统计量(hat statistic)判断。
car包中的influencePlot()函数,可将离群点、杠杆点和强影响点的信息整合到一幅图形中(影响图)。纵坐标超过2或小于-2的值可被认为是离群点,水平轴超过0.2或0.3的值有高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型估计造成的不成比例影响的强影响点。

3、统计相关名词

1)、RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS最小(残差平方和越小拟合程度越好),R2最大的模型(相关系数平方越接近1越好)
2)、R2:相关系数的平方,衡量多元线性回归方程对数据的拟合程度。越接近1,拟合效果越好,相反,越接近0,拟合效果越差。
相关系数ρXY:取值在-1到1之间,ρXY = 0时,称X,Y不相关; | ρXY | =1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; | ρXY | <1时,X的变动引起Y的部分变动,ρXY的绝对值越大,X的变动引起Y的变动就越大, | ρXY | > 0.8时称为高度相关,当 | ρXY | < 0.3时称为低度相关,其它时候为中度相关。
3)、协方差:协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量总体误差的期望。协方差为0的两个随机变量称为是不相关的,反之不成立。
4)、AIC(赤池信息准则)可用来比较模型,考虑了模型的统计拟合度及用来拟合的参数数目。AIC值越小的模型要优先选择,说明模型用较少的参数获得了足够的拟合度。
5)、方差:在统计学上,更常用的是使用方差来描述数据的离散程度——数据离中心越远越离散。方差的值越大,数据越分散。
6)、标准差:有效的避免了因单位平方而引起的度量问题;与方差一样,标准差的值越大,表示数据越分散。
7)、标准误概念:标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方根误差。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。此外,还需要特别指出的是,标准误还可以指样本标准差、方差等统计量的标准差,不仅仅只是样本均数的标准差。
8)、数据标准化是指:数值减去均值,再除以标准差;所谓中心化,是指变量减去它的均值。
数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

4、 回归诊断

1)简单线性回归
fit<-lm(weight~height,data=women); par(mfrow=c(2,2)) ;plot(fit)

① 左上图1残差-拟合图(Residuals vs Fitted):验证的是线性。若因变量与自变量线性相关,那么残差值与预测(拟合)值就没有任何系统关联。残差-拟合图中的点大多数呈现随机分布,如果有曲线关系,就需要在回归模型上加一个二次项。
② 右上图2是标准化残差的QQ图,验证的是正态性,如果变量满足正态性,则点应落在45度角的虚线上;
③ 左下图3是位置尺度图,通过标准化残差值与拟合值的关系来验证同方差性,如果假设成立,点应在线两端随机分布;因变量的方差不随自变量的水平不同而变化,称为同方差性(残差方差不变)。
④ 右下图4是残差与杠杆图,提供了单个观测点的信息,从图中可以鉴别出离群点、高杠杆值点和影响点。[PS:个人认为可读性比较差]

5、 Logistic回归

Logistic模型主要有三大用途:
1)寻找危险因素,找到某些影响因变量的”坏因素”,一般可以通过优势比发现危险因素;
2)用于预测,可以预测某种情况发生的概率或可能性大小;
3)用于判别,判断某个新样本所属的类别。
常见概率分布
(1)高斯分布:高斯分布实际上也是属于指数分布族,线性最小二乘就是基于高斯分布的。高斯分布又称为正态分布。
(2)伯努利分布:伯努利分布又叫做两点分布或者0-1分布,是一个离散型概率分布,若伯努利实验成功,则伯努利随机变量取值为1,如果失败,则伯努利随机变量取值为0。Logistic回归就是基于伯努利分布的。
(3)泊松分布:泊松分布是一种离散型概率分布。
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量Y服从高斯分布,那么得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。
1) 概念:
logistic回归模型是一个非线性回归模型,自变量可以是连续变量,也可以是分类变量,或哑变量。但可以使用线性回归模型对参数进行估计,所以Logistic回归模型属于广义线性模型。
Logistic回归的基本方法是极大似然方法,其前提是样本较大。但在样本量较小、数据结构较偏时,其结果会不可靠甚至无法求解。精确Logistic回归则可以用来解决这一问题,该方法通过建立条件似然函数,进一步求出参数的充分统计量的分布函数。随着计算方法的发展和优化,也出现了使用马尔可夫链蒙特卡罗算法来模拟精确Logistic回归。
2)原理
Logistics回归是一个二值分类算法。其基本思想是:根据现有数据对分类边界线建立回归公式,并将预测结果映射到0和1这两个值,以此来分类。而算法训练的过程也便是寻找最佳拟合参数的过程。
Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,用于两分类问题(即输出只有两种)。显然,该函数的输出必须是两个值(分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值