前提:需要统计量来描述数据特征
1.集中趋势衡量
1.1 平均值 (mean)
(6=2=9=1=2)/5=20/5=4
1.2 中位数 (median)
将数据中的各个数据按数值大小排序,取居于中间的那个。比如1、2、2、6、9的中位数是2.。如果数个个数为偶数是,中位数取中间两个值得平均数。
1.3众数(mode)
数据中出现次数最多的数据。
2.离散程度衡量
2.1方差(variance)
每个数据与平均值差的平方求和再除以n-1。
2.2标准差(standard deviation)
方差开根
3.回归类问题:Y变量为连续数值型,如房价、人数、降雨量等。
分类问题:Y变量为类别型数据,如颜色类别、电脑品牌、是否等。
4.简单线性回归(simple linear regression)
4.1回归分析就是用建立方程的方法来模拟两个或者多个变量之间的关联
4.2被预测的变量叫做因变量(y,输出),用来预测用途的变量叫做自变量(x,输入)
4.3.简单线性回归包含一个自变量和一个因变量,且两个变量的关系用一条直线来模拟。
4.4多元线性回归:包含两个以上的自变量
5.简单线性回归模型
5.1回归模型:被用来描述因变量与自变量以及偏差之间的关系的方程
5.2简单线性回归的模型是: y=β0+β1x+ε , β是参数,ε是偏差(随机因素)
6 简单线性回归方程
E(y)=β0+β1x ,
E(y)是给定x值下y的期望值,这个方程对应的图像是一条斜线,β0是截距,β1是斜率
正向线性关系:
负向线性关系;
无关系:
7.估计简单线性回归方程
y=b0+b1x ,之前的E(y)=β0+β1x ,表达的是真实的关系,此处的只是估计的关系
其中,b0是纵截距,b1是斜率,y是自变量对于一个给定值时,y的估计值
8.线性回归流程.
通过现有数据进行估计,从而求出估计值b0,b1对真实的线性回归进行估计。
9.对偏差ε的假定
ε是一个随机的变量,满足正态分布,故ε的均值是0,且ε的值是独立的,ε的方差对于所有自变量都一样。只有ε满足这些假定才可以使用简单线性回归分析。
简单线性回归模型举例:
汽车卖家广告数量和汽车销售量:
如何得出适合简单线性回归模型的最佳回归线(最能体现点的分布)
找出最好的回归线的标准:
计算(如何求出b0、b1)
预测
假设有一周广告数量为6,预测汽车销售量,把x=6代入估计方程即可、
python实现简单线性回归