我们在做计量经济学时,或者在做数据分析时,总是遇到个别个体的数据缺失,我的案例是关于年份与所对应的变量关系
做法:
1.将年份2010-2018分别设为[1,2,3,~~~,8],作为x,缺失的变量作为y
2.将用python来拟合(预测)缺失的那年数据。下面例子是缺失了2010年的数据,在year中,是没有1的。
# 读取或者输出数据
data = pd.DataFrame({'year':[2,3,4,5,6,7,8,9],'y':[1.874018063,
2.208148996,
2.602163989,
2.885194853,
2.839985094,
2.879936428,
3.232097044,
3.675257165,
]})
print(data)
# 数据处理
x=np.array(data['year']).reshape((8,1))
y=np.array(data['y']).reshape((8,1))
# 建立线性模型
model = linear_model.LinearRegression()
model.fit(x,y)
# 模型效果
coef=model.coef_ #获取自变量系数
model_intercept=model.intercept_#获取截距
R2=model.score(x,y) #R的平方
print('线性回归方程为:','\n','y=’{}*x+{}'.format(coef,model_intercept))
# 插入的值
new_x = np.array((1)).reshape((1,1))
print(new_x)
y_pre = model.predict(new_x)
print(y_pre)
y_pre的值就是关于2010年对应的预测,也就是我们要插入的值。