用python+sklearn机器学习实现天气预报 模型和使用
项目地址
系列教程
机器学习参考篇: python+sklearn+kaggle机器学习
用python+sklearn(机器学习)实现天气预报 准备
用python+sklearn(机器学习)实现天气预报数据 数据
用python+sklearn(机器学习)实现天气预报 模型和使用
0.前言
在上一篇教程里我们已经获取了所需要的全部数据,包括训练数据集和测试数据集,使用ProcessData()
调用,所以接下来写模型的建立和预测
1.建立模型
没段代码在文章后面都会整合成一段,分段展示只是便于阅读
a.准备
引入所需要的头文件
from sklearn.ensemble import RandomForestRegressor # 随机树森林模型
import joblib # 保存模型为pkl
from sklearn.metrics import mean_absolute_error # MAE评估方法
from ProcessData import ProcessData # 取数据
选择模型
首先我们先要从模型里选择一项适合这次场景的模型,比如从决策树,随机树森林,RGB模型等等中选择,本处选用的随机树森林也就是RandomForest
选择评估方法
目前有许多的模型准确率评估方法,本处使用的是MAE,也就是mean_absolute_error 平均错误数值,就每个预测的数值离正确数值错误数值的平均数
获取数据集
这次可以从ProcessData()
获取到全部的被预处理后的数据,如
# 取到数据
[X_train, X_valid, y_train, y_valid, X_test] = ProcessData()
b.建立模型
# 用XGB模型,不过用有bug
# modelX = XGBRegressor(n_estimators=1000, learning_rate=0.05, random_state=0, n_jobs=4)
# # model.fit(X_train_3, y_train_3)
# # model.fit(X_train_2, y_train_2)
# col = ["Ave_t", "Max_t", "Min_t", "Prec","SLpress", "Winddir", "Windsp", "Cloud"]
# modelX.fit(X_train, y_train,
# early_stopping_rounds=5,
# eval_set=[(X_valid, y_valid)],
# verbose=False)
# 随机树森林模型
model = RandomForestRegressor(random_state=0, n_estimators=1001)
# 训练模型
model.fit(X_train, y_train)
其中n_estimators是可自己选的,不过在多次调试后得到1001是MAE最优
c.获取模型评估结果
# 用MAE评估
score = mean_absolute_error(y_valid, preds)