1.定义
数据常分为时间序列数据、横截面数据、面板数据。
时间序列数据:时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。
特点是统计口径一致(收集同一指标、统计方法一致),按照一定顺序记录。
举例说明:
(1)一年内每天某一只股票的开盘价;
(2) 10年某一个国家的GDP;
(3) 某个地区从1月到12月的人均收入;
横截面数据:横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。
收集数据:时间点、收集指标和统计口径一致的。
举例说明:
(1)某一天所有A股票的开盘价;
(2)某年几个国家的GDP;
(3) 某一月不同地区的人均收入;
面板数据:在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。
举例说明:
(1)一年内每天所有A股票的开盘价;
(2) 连续10年几个国家的GDP;
(3)从1月至12月不同地区的人均收入;
面板数据优缺点:
优点:
1.面板数据可以控制个体异质性
2.面板数据提供更多信息
缺点:
1.面板数据收集困难
2.面板数据存在自选择问题
2.面板数据的种类
一般用变量表示面板数据中某个值,i表示个体,t代表时间。
2.1平衡面板数据和非平衡面板数据
平衡面板数据是指面板数据中每一个个体在每个时间内都没有缺失数据;反之为非平衡面板数据。
如果缺失数据,怎么办?
可以补全的数据:
可以用0补全:专利数据、研发费用
不随时间变化的数据
不可以补全的数据:
企业资产、每年销售量、GDP.....
2.2长面板数据和短面板数据
个体i < 时间t:长面板 个体i > 时间t:短面板
上面那个面板数据就是长面板数据。
2.3动态面板模型和静态面板模型
在面板模型中,如果解释变量包含被解释变量的滞后值,则称为“动态面板”。
举例说明就是,上一个月的播放量会影响这个月的播放量,这就是一个动态面板模型。(可以滞后任意期)
2.4伪面板数据
伪面板数据是收集一个组或者一个族群的特征数据,而不是统计个体的特征数据。
不是所有某个群体的特征值构成的面板数据都是伪面板数据。
举例说明:
1.B站知识区、游戏区、美妆区、生活区、搞笑区五个区的up主(个人)平均月播放量(是伪面板数据)
2.B站知识区、游戏区、美妆区、生活区、搞笑区五个区的每个区总月播放量(不是伪面板数据)
2.5轮换面板数据
每个时间所统计的个体中,都有一定量的个体被新的个体替换。
如上图,每个月都能保持四个同学的数据,但小张和小刘的数据差别很大,有可能是和月份有关,也有可能是小张和小刘的影响力有差距;如果直接取代的话会影响数据表达出来的内容,即可能会存在个体异质性偏差。
3.面板数据的三种不可观测因素
4.面板数据模型分类
面板数据模型分为混合模型、固定效应模型和随机效应模型。
4.1混合模型
不存在个体和时间不可观测因素,即μi、vt=0。简化后得到以下公式:
在混合模型中,没有区分每一个个体也不区分不同时间段,类似之前的OLS模型。
4.2因素回归模型
4.3固定、随机效应
固定效应
比如下面例子,分别展示了不同个体和时间对变量(视频质量)的影响。
随机效应
4.4变系数模型
在之前的模型中,我们都是假设自变量X对因变量Y的影响在每一个个体当中都一样,即假设我们回归系数β对每一个个体它都是很肯定不变的。当时,当自变量X对因变量Y的影响是随着个体变化而变化时,要用到变系数模型,以下面模型为例,展示了不同个体对应的β3不同。