机器学习
一.基本术语
- 数据集(data set)
- 样本空间(属性张成的空间)
- 示例(样本 特征向量)
- 训练集(训练样本的集合)
- 测试样本
- 学习器(模型)
二.学习
学习过程:在所有假设组成的空间进行搜索,搜索目标是找到与训练集匹配的假设。
三.机器学习分类
- 监督学习(训练样本拥有标记信息)
- 离散值 分类
- 连续值 回归
- 无监督学习 聚类
四.模型评估与选择
分类 错误率/精度 等等
回归 均方误差
实际预测与真实输出之间的差异:误差
训练集上的误差 训练误差/经验误差
新样本上的误差 泛化误差
过拟合/欠拟合
评估方法 留出法 交叉验证法 自助法
很多学习器是为测试样本产生一个实值或者概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则为正类,否则为反类。