资金流入流出预测—模型训练

最新推荐文章于 2024-01-18 19:58:55 发布

sosososoon

最新推荐文章于 2024-01-18 19:58:55 发布

阅读量1.7k

点赞数

分类专栏：数据分析与挖掘

本文链接：https://blog.csdn.net/sosososoon/article/details/108227246

版权

数据分析与挖掘专栏收录该内容

25 篇文章 5 订阅

订阅专栏

模型训练与验证

训练及预测流程
数据集的划分
- 无时序的数据集：简单划分、交叉验证划分
- 有时序的数据集：需考虑时序，nested交叉验证划分
模型选择
- 依据在验证集上的效果选择
- 除了关注效果的均值，还要关注稳健性
- 还需考虑线上效果，可将线上效果视为一折数据
多元回归
$f(X_1,X_2,...,X_n)+\varepsilon$
常用的回归模型
- 线性回归
  - $\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_nX_n+\varepsilon$
  - 可采用最小二乘或梯度下降等方法估计
  - 当变量较多时，建议考虑添加 LASSO (L1 正则化) 等惩罚项
  - 使用 sklearn 调用线性回归
```
#从sklearn算法库中导入线性回归模型算法
from sklearn.linear_model import LinearRegression, Lasso
from sklearn.datasets import load_diabetes
from sklearn.metrics import mean_squared_error
data = load_diabetes()
clf_lr = LinearRegression()
clf_lr.fit(data['data'][:300],data['target'][:300])
clf_lr.coef_
pred_lr = clf_lr.predict(data['data'][300:])
mse_lr = mean_squared_error(data['target'][300:],pred_lr)
clf_lasso = Lasso(alpha=0.1)
clf_lasso.fit(data['data'][:300],data['target'][:300])
clf_lasso.coef_
pred_lasso = clf_lasso.predict(data['data'][300:])
mse_lasso = mean_squared_error(data['target'][300:],pred_lasso)
```
- 决策树
  - 为每个变量选择切分点，将变量作为节点分裂
  - 在分裂后，依据相应分支内所有样本的因变量均值作为估计，并评估拟合误差
  - 使用sklearn调用决策树回归
```
#从sklearn算法库中导入决策树回归
from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import load_diabetes
from sklearn.metrics import mean_squared_error
data = load_diabetes()
clf_dt = DecisionTreeRegressor()
clf_dt.fit(data['data'][:300],data['target'][:300])
pred_dt = clf_dt.predict(data['data'][300:])
mse_dt = mean_squared_error(data['target'][300:],pred_dt)
```
- 随机森林
- 梯度提升树：Gradient Boosting Tree、Xgboost、LightGBM、Catboost

sosososoon

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
资金流入流出预测—模型训练

模型训练与验证训练及预测流程数据集的划分无时序的数据集：简单划分、交叉验证划分有时序的数据集：需考虑时序，nested交叉验证划分 模型选择依据在验证集上的效果选择除了关注效果的均值，还要关注稳健性还需考虑线上效果，可将线上效果视为一折数据多元回归Y=f(X1,X2,...,Xn)+εY = f(X_1,X_2,...,X_n)+\varepsilonY=f(X1,X2,...,Xn)+ε常用的回归模型线性回归Y=β0+β1X1
复制链接

扫一扫