2.掌握基本的回归模型
使用sklearn构建完整的机器学习项目流程:
- 明确项目任务:回归/分类
- 收集数据集并选择合适的特征
- 选择度量模型性能的指标
- 选择具体的模型进行训练
- 评估模型性能并调参
2.1 使用sklearn构建完整的回归项目
-
收集数据集并选择合适的特征
根据导论选择Boston数据集。 -
选择度量模型性能的指标
https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics
在这个案例中,我们使用MSE均方误差为模型的性能度量指标。- 均方误差MSE
M S E = 1 n ∑ i = 0 n ( y i − y i ^ ) 2 MSE=\frac{1}{n}\sum_{i=0}^n(y_i-\hat{y_i})^2 MSE=n1i=0∑n(yi−yi^)2
MSE是预测值与观测值的误差平方和的均值。MSE越小,说明预测模型描述实验数据具有更好的精度。 - 平均绝对误差MAE
M A E = 1 n ∑ i = 0 n ∣ y i − y i ^ ∣ MAE=\frac{1}{n}\sum_{i=0}^n|y_i-\hat{y_i}| MAE=n1i=0∑n∣yi−yi^∣
MAE是预测值与观测值的误差绝对值的均值。 - 决定系数 R 2 R^2 R2
R 2 = 1 − v a r ( y − y ^ ) v a r ( y − y ‾ ) = 1 − ∑ i = 0 n ( y i − y ^ ) 2 ∑ i = 0 n ( y i − y ‾ ) 2 R^2=1-\frac{var(y-\hat{y})}{var(y-\overline{y})} =1-\frac{\sum_{i=0}^n(y_i-\hat{y})^2}{\sum_{i=0}^n(y_i-\overline{y})^2} R2=1−var(y−y)var(y−y^)=1−∑i=0n(yi−y)2∑i=0n(yi−y^)2
决定系数,也叫拟合优度。决定系数反应了y的波动有多少百分比能被x的波动所描述,即表征依变数Y的变异中有多少百分比,可由控制的自变数X来解释。越大表示拟合优度越好。- 解释方差得分
e x p l a i n e d − v a r i a n c e = 1 − v a r ( y − y ^ ) v a r ( y ) explained-variance=1-\frac{var(y-\hat{y})}{var(y)} explained−variance=1−
- 均方误差MSE