python回归分析
回归分析
历史
回归最初是遗传学中一个名词
由英国生物学家兼统计学家高尔顿首先提出
Regression Analysis
是研究自变量与因变量之间数量变化关系的一种分析方法
通过建立因变量y与影响它的自变量x之间的回归模型来预测因变量的发展趋势
通常数据分析
进行相关分析,计算相关系数,再进行拟合回归模型,最后用回归模型进行预测
相关分析与回归分析的区别:
相关分析:研究的是随机变量,不分自变量与因变量
回归分析:研究的是变量要定出自变量与因变量,自变量时确定的普通变量,因变量时随机变量
相关分析:主要描述两个变量之间相关关系的密切程度
回归分析: 即可揭示变量X对变量Y的影响大小,还可以根据回归模型进行预测
回归分析分类
线性回归分析
简单线性回归
多重线性回归
非线性回归分析
回归分析--五步骤:
根据预测目标,确定自变量和因变量
围绕业务问题,明晰预测目标,从经验、常识、以往历史数据研究为依据,初步确定自变量和因变量
绘制散点图,确定回归模型类型
通过绘制散点图的方式,从图形化的角度初步判断自变量和因变量之间是否具有线性相关关系,同时进行相关分析,根据相关系数判断自变量与因变量之间的相关程度和方向,从而确定回归模型类型
估计模型参数,建立回归模型
采用最小二乘法等进行模型参数的估计,建立回归模型
对回归模型进行检验
回归模型可能不是一次即可达到预期,通过对整个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型
利用回归模型进行预测
模型通过检验后,应用到新的数据中,根据新的自变量,进行因变量目标值的预测
简单线性回归分析
简单线性回归---一元线性回归
即回归模型中只含一个自变量
主要用来处理一个自变量与一个因变量之间的线性关系
简单线性回归模型:
$$ Y= \alpha + \beta X+e $$
Y:因变量
X:自变量
$$\alpha $$ 常数项,是回归直线在纵坐标轴上的截距
$$ \beta$$回归系数,回归直线的斜率
e:随机误差,即随机因素对因变量所产生的影响
数据准备
#简单线性回归分析
#数据准备
import pandas as pd
df=pd.read_csv('d:/python/out/fit.csv',encoding='utf8')
df
绘制散点图,确定回归模型类型
#简单线性回归分析
#数据准备
import pandas as pd
df=pd.read_csv('d:/python/out/fit.csv',encoding='utf8')
#根据预测目标,确定自变量和因变量
#定义自变量
x=df[['营销费用(万元)']]
y=df[['销售额(万元)']]
#绘制散点图,确定回归模型类型
#计算相关系数
df['营销费用(万元)'].corr(df['销售额(万元)'])
#简单线性回归分析
#数据准备