目录
一、目的
通过对某国失业率数据的分析,建立一个合理的计量经济学模型,从而挖掘失业率的变化规律,以及基于失业率的变化规律对以后的失业率作合理的预测。
二、数据来源和相关说明
1、数据来源
来源于某国1990年1月至2006年12月间每月的全国失业率(%)。
import os
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
# 参数设置
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width',300)
pd.set_option('display.max_info_columns',500)
plt.rcParams['font.sans-serif']=['SimHei'] #中文
plt.rcParams['axes.unicode_minus'] = False #负号
filePath = r'E:\CH8'
fileName = r'rate.csv'
# 获取数据
df_raw = pd.read_csv(open(os.path.join(filePath, fileName)))
2、数据信息
共708条样本,包含2个变量。
print(df_raw.info())
print(df_raw.head())
3、变量信息
- time:月份。
- rate:失业率。历史经验表明,失业率的高低受月份的影响很大,不同月份的失业率没有直接的可比性,因此数据已提前做季节性调整,为后面的统计分析建模打下基础。
三、描述性分析
df_clean = df_raw.copy()
df_clean['time'] = df_clean['time'].astype(str)
1、时序序列平稳性分析
通过时间序列图来获取对失业率的直观印象,从图中看出:
- 在过去27年(1990-2006)中,该国的失业率基本在5%以内,总体平均水平大约为2%,但是不同时期的失业率平均水平差异巨大。
- 同时也明确表示,该失业率数据是非平稳的时间序列,对其直接进行统计分析的结果是缺乏预测能力的,因为只有基于平稳的时间序列数据的统计模型才具有良好的预测能力。
df_clean.plot(x='time', y='rate', legend=False)
plt.title('失业率的时间序列图')
plt.show()
因此,考虑对失业