主要内容
- 根据选用模型的特性对数据进行处理,比如线性回归对特征的要求,需要独热编码,需要归一化,处理长尾分布等等
- 模型性能验证的的一些包的使用:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;
- 特征选择的方法:直接、过滤、嵌入式(即通过模型输出的结果对特征进行选择,常用有带正则化的线性回归如lasso回归、Ridge回归、和决策树等
- 进行模型对比:主要通过分析损失值
- 模型调参的方法:1.贪心调参方法:即是一个特征一个特征的暴力穷举可能性 2.网格调参方法:暴力穷举多个特征的所有组合 3.贝叶斯调参方法:基于贝叶斯原理
1.线性回归查看回归模型的截距和权重
#简单建模
from sklearn.linear_model import LinearRegression #线性回归
model = LinearRegression(normalize=True) #选择线性回归模型
model = model.fit(train1, train1_Y)
#查看训练的线性回归模型的截距(intercept)与权重(coef)
'intercept:'+ str(model.intercept_)
sorted(dict(zip(train1.columns, model.coef_)).items(), key=lambda x:x[1], reverse=True)
2.查看数据的分布
#绘制特征v_9的值与标签的散点图,图片发现模型的预测结果(蓝色点)
#与真实标签(黑色点)的分布差异较大,且部分预测值出现了小于0的情况,
#说明我们的模型存在一些问题
from matplotlib import pyplot as plt
subsample_index = np.random.randint(low=0, high=len(train1_Y), size=50) #对训练样本随机采样
plt.scatter(train1['v_9'][subsample_index], train1_Y[subsample_index], color='black')
plt.scatter(train1['v_9'][subsample_index], model.predict(train1.loc[subsample_index]), color='blue')
plt.xlabel('v_9')
plt.ylabel('price')
plt.legend(['True Price','Predicted Price'],loc='upper right')
print('The predicted price is obvious different from true price')
plt.show()