在上一节中,我们介绍了 机器学习的分类,其中 回归 (Regression) 是一种用于 预测数值数据 的方法。本节介绍 回归模型的训练与评估。
训练回归模型
1.1 数据拆分
在训练回归模型时,我们通常将数据拆分为:
**训练数据 (Training Data)**:用于训练模型,学习 温度和销量的关系
**验证数据 (Validation Data)**:用于测试模型,评估预测效果
以下是完整的数据集:
温度 (x) | 冰淇淋销量 (y) |
---|---|
51 | 1 |
52 | 0 |
67 | 14 |
65 | 14 |
70 | 23 |
69 | 20 |
72 | 23 |
75 | 26 |
73 | 22 |
81 | 30 |
78 | 26 |
83 | 36 |
训练数据集 (用于训练模型):
温度 (x) | 冰淇淋销量 (y) |
---|---|
51 | 1 |
65 | 14 |
69 | 20 |
72 | 23 |
75 | 26 |
81 | 30 |
验证数据集 (用于测试模型):
温度 (x) | 冰淇淋销量 (y) |
---|---|
52 | 0 |
67 | 14 |
70 | 23 |
73 | 22 |
78 | 26 |
83 | 36 |
1.2 训练过程
我们使用 线性回归 (Linear Regression) ,找到一条 直线公式 来表达 温度和销量的关系:
公式解释:
当温度为 50°F,销量为 0 🍦
温度每升高 5°F,销量增加 5 份 ✅
例如:明天温度 77°F,预计销量:预计卖出 27 份冰淇淋
训练数据散点图 (拟合出的回归直线)

评估回归模型
2.1 预测 vs. 真实数据
使用 验证数据 来测试模型:
温度 (x) | 实际销量 (y) | 预测销量 (ŷ) |
---|---|---|
52°F | 0 | 2 |
67°F | 14 | 17 |
70°F | 23 | 20 |
73°F | 22 | 23 |
78°F | 26 | 28 |
83°F | 36 | 33 |
可以看到,预测值不完全等于实际值,存在 误差 。
实际销量 vs. 预测销量对比图

计算误差 (Model Error Metrics)
为了衡量模型的好坏,我们计算几个常用的误差指标:
3.1 平均绝对误差 (MAE, Mean Absolute Error)
计算公式:
示例:
误差值:
2、3、3、1、2、3
计算平均误差:
3.2 均方误差 (MSE, Mean Squared Error)
计算公式:
示例:
误差平方值:
4、9、9、1、4、9
计算平均误差:
3.3 均方根误差 (RMSE, Root Mean Squared Error)
计算公式:
示例:
计算 🍦(与销量单位相同)
3.4 决定系数 (R², R-Squared)
计算公式:
解释:
取值范围
0 ~ 1
,越接近 1 说明模型预测越准确 📈示例中,冰淇淋回归模型的 R² = 0.95,表示 95% 变量可解释 ✅
如何优化回归模型?
优化方法:增加更多特征:如 天气、假日、促销 等因素 📊
尝试不同算法:如 多项式回归 (Polynomial Regression)、决策树回归 (Decision Tree Regression) 🌳
调整模型超参数:改变学习率、正则化参数,优化模型表现 🎛
总结
回归模型的目标:用 数学公式预测数值数据,例如 温度对销量的影响。
训练过程:拆分数据(训练集 & 验证集)
训练模型(使用 线性回归 拟合数据)
测试模型(对比预测值 & 真实值)
优化模型(增加特征 & 选择合适算法)
不断迭代,找到最优模型
进一步学习机器学习回归:
Scikit-learn 线性回归教程
TensorFlow 回归模型
Azure 机器学习 - 回归分析
📢 欢迎 Star ⭐ 本仓库,获取更多 AI 资源!