第一章-绪论
1.1教材
1.2课程定位
- 搞清楚是什么为什么这么做
1.3机器学习
- 利用经验改善系统自身的性能,目前主要研究智能数据分析的理论和方法
1.4典型的机器学习过程
- “好瓜、坏瓜”是一个西瓜样例的类别标记
1.5计算学习理论
- x是输入数据,f是模型;y是预测值|f(x)-y|<=ε,P(|f(x)-y|)>=1-δ,δ绝对小并且1-δ接近1,表示概率P的值绝对准;PAC概率近似正确。
1.6基本术语
- 输出结果不知道就是无监督学习。泛化:学到的数据,再处理新数据的能力,就是指ε 到底可以达到多少。
- 示例:一行样本的各个属性值(特征值)
- 样例:好瓜
- 假设:学到的模型f(x)
1.7归纳偏好
- 偏置,对某种东西有特殊的喜好,若非必要,勿增实体
- 奥卡姆剃刀 原则:若有多个假设与观察一致,则选最简单的那个
1.8NFL定理
第二章-模型评估与选择
2.1泛化能力
- 错误率低,精度高;对新的数据的处理能力强。
2.2过拟合和欠拟合
- 泛化误差:在“未来”样本上的误差
- 经验误差:在训练集.上的误差,亦称“训练误差”
- 过拟合:就是训练集训练过度,新的样本预测能力差
- 欠拟合:就是训练集训练不好,新的样本预测能力也差
2.3三大问题
- 如何获得测试结果?评估方法
- 如何评估性能优劣?性能度量
- 如何判断实质差别?比较检验
2.4评估方法
- 如何将测试集和验证集分割;注意原始数据集应该互斥
留出法(hold-out)
- 保持数据分布一致性( 例如:分层采样)
- 多次重复划分(例如: 100次随机划分)
- 测试集不能太大、不能太小(例如: 1/5~1/3) .
- 存在缺点:不能每个样本都测试到,会遗漏样本
交叉验证法(cross validation)
- k-折交叉验证
- 存在缺点:如果男女性别的测试,测试精度就会不准
自助法(bootstrap):有放回采样
2.5调参与验证集
2.6性能度量
- 均方误差
- 错误率和精度
- 查准率和查全率。查全率:收购西瓜的公司希望把瓜摊的好瓜都尽量收走。
2.7比较检验
第三章-线性模型
3.1线性回归
-
w,b求出最优解
-
序关系:高1.0 中0.8 低0.5
-
一些青色,浑浊,沉闷变成onehot编码[0 1 0]代表浑浊这样。
△3.2最小二乘解-已经手写推导
- 最小二乘法:基于均方误差最小化来进行模型求解的方法称为
- 偏导求极大值和极小值,找它的变化率
3.3多元线性回归
- 归纳偏好-正则化
3.4广义线性模型
-
逼近对数线性回归
-
联系函数
3.5对率回归
-
几率
-
对率回归;是分类学习算法
△3.6对率回归求解
- 对数几率回归为什么不能通过令偏导为0求解?均方损失非凸
3.7类别不平衡
-
小类比大类重要时候,类别不平衡问题中何时需要做特殊处理
-
解决类别不平衡问题:1过采样:将原来小类别的样本变大,和原来的大样本平衡;2欠采样:将原来大类别的样本变小,和原来的小样本平衡;3阀值移动:SVM阀值移动
第四章-决策树
4.1决策树基本流程
- 三种停止条件:
- (1)当前结点包含的样本全属于同一类别,无需划分;就是决策树只有一个结点;
- (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;就是属性值太多相同;
- (3)当前结点包含的样本集合为空,不能划分.就是决策树预测出来的属性。
4.2信息增益划分
- 信息增益:划分前的信息熵-划分后的信息熵
- 西瓜书的例子
- 最后以最大的纹理为划分的结点。
4.3其他属性划分准则
- 信息增益率;起到了规范化的作用;教材p76
4.4决策树的剪枝
- 预剪枝:提前终止某些分支的增长
- 后剪枝:生成一颗完全树,再“回头”剪枝
4.5缺失值的处理
- 对于属性值的缺失:基本思路就是,样本赋权,权重划分
第五章-支持向量机
5.1支持向量机基本型
5.2对偶问题与解的特性
5.3求解方法
5.4特征空间映射
5.5核函数
- 核函数:1距离矩阵2半正定
5.6如何使用SVM?
第六章-神经网络
6.1神经网络模型
6.2万有逼近能力
6.3BP算法推导
第七章-贝叶斯分类器
7.1贝叶斯决策论
7.2生成式和判别式模型
7.3贝叶斯分类器与贝叶斯学习
- 贝叶斯主义认为,分布的参数是分布。
- 统计学习属于频率主义。
7.4极大似然估计
7.5朴素贝叶斯分类器
- 注意:对连属性,计算条件概率可考虑概率密度函数
第八章-继承学习和聚类
8.1集成学习
- Ensemble learning:多个学习器集成。
8.2好而不同
- E是集成学习的错误;E-是每个个体错误的平均,就是平均性能;A-就是每个个体之间的差异度。希望E-小,每个个体A-之间的差异要大,就是diversity。
- 误差-分歧分解表明集成学习中多样性是关键。
8.3两类常用集成学习方法
- 串行和并行化算法
8.4Boosting
- alignment配准
- Boosting流程:对错误样本进行加权,最后进行求和。
- Boosting是一种同质集成学习方法。
8.5Bagging
- 投票做分类,平均做回归;
- 注意:Bagging算法使用的采样方法是有放回采样。
8.6多样性度量
-
多样性度量
-
现有的76种多样性度量
-
diversity和E的关系
8.7聚类
-
无监督学习除了聚类,还有密度估计;有监督:回归,分类。
-
聚类也可以做分类的预处理。
8.8聚类方法概述
-
一些新算法的比较容易诞生
-
常见的聚类算法
-
什么是层次聚类,AGNES;越下层,越粒化;
-
原型聚类都可以看成高斯聚类的特例,比较适合处理椭球结构
-
密度聚类比较适合与香肠型聚类