回归分析
1.基本介绍
回归分析是数据分析中最基础,也是最重要的分析工具。绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
2.常见的类别
- 线性回归
- 0-1回归
- 定序回归
- 计数回归
- 生存回归
类型 | 模型 | Y的特点 | 例子 |
线性回归 | OLS,GLS(最小二乘) | 连续数值型变量 | GDP,产量,收入 |
0-1回归 | logistic回归 | 二值变量(0-1) | 是否违约、是否得病 |
定序回归 | probit定序回归 | 定序变量 | 等级评定(优凉差) |
计数回归 | 泊松回归(泊松分布) | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断数据) | 企业、产品的寿命 |
3.回归分析的使命
- 识别重要变量:哪些X变量是同Y真的相关,哪些不是。统计学中有专门的领域,名为“变量选择”。
- 判断相关性的方向:自变量X与因变量Y之间是正相关还是负相关。
- 估计权重(回归系数):回归分析赋予不同自变量X不同的权重,也就是不同的回归系数,进而了解不同变量之间的相对重要性。
4.变量数据
4.1.数据的分类
- 横截面数据:在某一时点收集的不同对象的数据
- 时间序列数据:对同一个对象在不同时间连续观察取得的数据
- 面板数据:横截面数据与时间序列数据综合起来的一种数据资源
4.2.不同数据的处理方式
数据类型 | 常见建模方法 |
横截面数据 | 多元线性回归 |
时间序列数据 | AR、MA、ARMA、ARIMA、ARCH、GARCH、VAR |
面板数据 | 固定效应和随机效应、静态面板和动态面板 |
4.3.数据的收集
- 宏观数据:【简道云汇总】110+数据网站
- 宏观数据:虫部落数据搜索
- 宏观数据:【汇总】数据来源/大数据平台
- 宏观数据:大数据导航
- 微观数据:人大经济论坛
- 爬虫:Python等软件爬取/傻瓜式软件爬取(Bilibili)