- 数据集(DataSet):包括Training Set和Test Set 监督学习
- 模型(Model)
- 训练(Training)
- 应用(Inferring)
线性模型:给定许多数据点,找到一个函数拟合这些数据点,使其误差最小,也即是试图学习一个通过属性的线性组合来进行预测的函数。
1、数据集
- 问题
过拟合:指模型在训练集上表现很好,将噪声数据也一起学习了。到了验证和测试阶段就很差,即模型的泛化能力很差。
欠拟合:是指模型在训练集、验证集和测试集上均表现不佳的情况;
泛化:是指在训练集上的经验性能是否会在未知数据集上表现出差不多的性能。
2、面对数据集常用的策略
- 将训练集分成两部分:训练集和开发集
- 数据集划分:训练集 开发集 测试集
3、模型设计
- 评估模型
- loss函数
MSE:平均平方误差