前三章
序言六问
- 符号学习、统计学习的此消彼长
- 将来是否还会要求独立同分布吗
- 深度学习本质上还是连接主义,是否是从统计学习回退了
- 数学方法上,有无可能从概率统计到其他
- 数学上的问题
- 大数据与机器学习
符号主义、联结主义、统计学习、机器学习、深度学习的关系
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aVkLdQPl-1635301248405)(D:\其他\符号主义.jpg)]
了解机器学习
定义:计算机从数据产生模型的算法
相关概念:
特征向量、概念学习、版本空间、归纳偏好、特征选择、奥卡姆剃刀、NFL定理
模型评估与选择
评估方法:留出法、交叉验证法、自助法
初始数据量足够时,选择留出法或交叉验证法,自助法可以产生多个不同训练集,对集成学习很有帮助,但引入偏差。需注意,模型选择完之后,再用整个训练集重新训练模型得到最终模型
性能度量
- 评估性能的依据:泛化能力
- 均等代价下,有如下依据:精度与错误率、查全查准F1、ROC与AUC
- 非均等代价:代价敏感错误率与代价曲线
- 假设检验判断从测试错误率到泛化错误率的可靠性
偏差与方差
泛化误差可分解为偏差、方差与噪声之和
- 偏差是学习算法的期望预测与真实结果的偏离,刻画学习算法本身的拟合能力
- 方差同样大小训练集变动导致学习性能变化,刻画数据扰动造成的影响
- 噪声是当前任务任何学习算法能达到的期望泛化,是误差的下界,刻画学习问题本身的难度
泛化性能由学习算法的能力、数据的充分性以及学习任务本身的难度决定
线性模型
多元线性回归模型
- 解可能有多个,由学习算法的归纳偏好决定哪个解,一般使用正则化
- 令模型预测值逼近y的衍生物,得到 广义线性模型
注意:
教材的顺序为:线性回归→多元线性回归→广义线性模型→对数几率回归→多分类
线性判别分析中LDA常被视为一种经典的监督降维技术
多分类学习经典策略:OvO、OvR、MvM
类别不平衡为题可以使用欠采样、过采样和直接基于原始训练集进行学习
多分类学习经典策略:OvO、OvR、MvM
类别不平衡为题可以使用欠采样、过采样和直接基于原始训练集进行学习