多元回归分析(上)

概述

回归分析:研究x和y之间相关性的分析

相关性

例子:统计结果表示,游泳死亡人数越高,雪糕卖的越多。那么可以获得结论:吃雪糕会增加游泳死亡风险吗?
答:不可以,因为这两者是相关性,而不是因果性
回归分析只能研究相关性,如上面的这个问题,雪糕售量和游泳死亡人数之间的相关性。

Y(因变量)

Y是因变量,因为别人改变,而改变的量。Y是我们研究的核心。下面给出不同的变量例子:

  1. 经济增长的决定因素,Y可以取GDP增长率(连续数值型变量
  2. 某公司研究借款人是否按时还款,Y=0时表示不能还款,Y=1表示可以还款(0-1型变量
  3. 消费者对商品的打分(1:好,2:一般,3:差,4:极差) (定序变量
  4. 一定时间内,客户到达的数目,次数是一个非负的变量(计数变量
  5. 研究产品、企业甚至是生物的寿命(生存变量

X(自变量)

X是自变量,用来解释Y的相关变量(解释变量)。
回归的任务是,通过研究X和Y的相关关系,尝试去解释Y的形成机制。

解决的问题

如下:
在这里插入图片描述

回归分析的大致步骤

步骤1:判断哪些X和Y是真的相关,哪些不是。
步骤2:剩下的X和Y的相关关系是正还是负。
步骤3:知道正负后,进一步确定X的权重(就是回归系数),进而知道不同变量之间的相对重要性。

回归分析的分类

在这里插入图片描述

数据的分类

  1. 横截面数据:在某一时间点收集的不同对象的数据(多对象,单时间)
    eg.发放问卷得到的数据/ 各省份2018年GDP的数据/ 大一新生体测的数据
  2. 时间序列数据:对同一对象在不同时间连续观察所得到的数据(多时间,单对象)
    eg.从出生到现在,你的体重的数据/ 中国历年来GDP的数据/ 每隔一段时间的温度
  3. 面板数据:横截面数据与时间序列数据综合起来的一种数据资源(多对象,多时间)
    eg.2008-2018年,我国各省份GDP的数据(不仅有各省份,也有时间序列)

不同数据的处理方法

在这里插入图片描述

数据的收集【重点】

【简道云汇总】110+数据网站
https://link.jiandaoyun.com/f/5cc652cc2cf3b22fb7819189
虫部落数据搜索
http://data.chongbuluo.com/
【汇总】数据来源/大数据平台
https://link.jiandaoyun.com/f/5b35d05ff7f6ef2604d39a93
大数据工具导航工具
http://hao.199it.com/
数据平台
http://www.hippter.com/data.html
上面的数据多半都是宏观数据,微观数据市面上很少,大家可以在人大经济论坛搜索
https://bbs.pinggu.org/
爬虫
傻瓜式软件爬取(八爪鱼)
https://weidian.com/item.html?itemID=2868006301

一元线性回归

借鉴拟合,拟合的本质是你已经知道了数据和想要得到的函数,你要通过这些数据和想得到的函数做最小二乘法解出欲得到函数中未知参数。而一元线性回归概念如下:
在这里插入图片描述
注:对线性的理解:
在这里插入图片描述

回归系数的解释

y i = β 0 + β 1 x i + μ i y_i = \beta_0 + \beta_1x_i + \mu_i yi=β0+β1xi+μi, 其中 β 0 \beta_0 β0 β 1 \beta_1 β1为回归系数
假设 x x x为某产品的品质评分(1-20)之间, y y y为该产品的销量,对 x x x y y y使用医院线性回归模型,如果得到 y i ^ = 3.4 + 2.3 x \hat{y_i} = 3.4 + 2.3x yi^=3.4+2.3x,可以做出如下解释:

  1. 3.4:在评分为0时,该产品的平均销量为3.4
  2. 评分每增加一个单位,该产品的平均销量增加2.3

对于多个自变量 ,同上述的说法,例如 y i ^ = 3.4 + 2.3 x 1 − 1.4 x 2 \hat{y_i} = 3.4 + 2.3x_1 - 1.4x_2 yi^=3.4+2.3x11.4x2, 要注意一点,2.3这里指的是在其他变量保持不变的情况下 x 1 x_1 x1每增加一个单位,销量增加2.3。

内生性和外生性

例如刚刚的例子,如果变量 μ i \mu_i μi和 自变量 x i x_i xi无关的话,我们称外生性,否则称为内生性。
内生性导致自变量的回归系数出现偏差,例如:

  1. y i ^ = 3.4 + 2.3 x \hat{y_i} = 3.4 + 2.3x yi^=3.4+2.3x
  2. y i ^ = 3.4 + 2.3 x 1 − 1.4 x 2 \hat{y_i} = 3.4 + 2.3x_1 - 1.4x_2 yi^=3.4+2.3x11.4x2

这两个式子都是描述销量的,但是1式描述销量和品质的关系,2式描述了销量和品质与价格之间的关系。值得注意的是,同样是品质参数(x, x1),在1式和2式中回归系数并不一样,这是因为1式中没有考虑到价格的影响,所以 μ = 3.4 \mu = 3.4 μ=3.4和 x 之间有关联,从而导致了内生性。
总结:我们回归的时候,一定要找出全部的影响变量(自变量),来削弱内生性的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值