1. 线性回归
(1) 解决回归问题,建立系统,解决:将向量X作为输入,向量Y作为预测输出
① 输出是输入的线性函数 y·=WX(W是参数)
② 系统通过参数W控制行为
③ W是是决定每个特征如何影响预测的权重,与特征值具有相关性
(2) 度量P
① 评价模型,而非训练模型
② 组件:测试集
③ 方法:
1) 均方误差:
a. 预测值和目标值间的欧式距离增加,表示误差增加
(3) 使用线性回归训练模型?
① 通过减少 均方误差 以改进 权重w
(4) 线性回归模型:
① y=w[T] x+b
1. 泛化:在未观测的输入上表现良好的能力
2. 误差:
(1) 训练误差
(2) 泛化误差/测试误差
(3) 通过最小训练误差训练模型
3. 统计学习理论
(1) 如何提高两集数据的质量?
① 在数据生成过程中,采用 独立同分布假设
② 采用这种方式生成数据 潜在分布 称为 数据生成分布
③ 训练集和测试集有什么联系?
1) 训练误差期望和测试误差期望相同
4. 什么决定机器学习算法效果?
(1) 降低训练误差
(2) 缩小寻览误差和测试误差的差距
5. 机器学习两大挑战:
(1) 欠拟合:不能在训练集上获得足够低的误差
(2) 过拟合:训练集和测试集的误差差距太大
(3) 通过 容量 调整拟合函数的能力,通过假设空间控制容量
6. 容量:
(1) 缓和 过拟合 和欠拟合 的方法
(2) 表示容量:从哪些函数族中选择函数,被称为xxx
(3) 有效容量:限制因素决定有效容量
7. 提高模型泛化能力方法:
(1) 奥卡姆剃刀原理:如无必要,勿增实体
(2) 使用统计学习理论量化模型容量
① 结论:
1) 训练误差和泛化误差间差异上界随样本容量上升而上升,
2) 随着训练样本增多而下降
(3) 通常,泛化误差是关于模型的U函数