西瓜书学习笔记

最新推荐文章于 2024-07-19 16:27:03 发布

qq_27302491

最新推荐文章于 2024-07-19 16:27:03 发布

阅读量378

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_27302491/article/details/116998691

版权

西瓜书学习笔记

2021/5/18-
2021/5/22-

文章目录

西瓜书学习笔记
前言
一、绪论
- 1、术语
- 2、心得
二、模型评估与选择
- 1、经验误差和过拟合
- 2、模型选择
- 3、性能度量（performance measure）
- 4、比较检验
- 5、偏差与方差
三、线性模型（linear model）
- 1、线性回归
- 2、线性判别分析（linear discriminant analysis，LDA）
- 3、多分类学习
- 4、类别不平衡问题
四、决策树（decision tree）
- 1、基本流程
- 2、划分选择
- 3、剪枝处理
- 4、连续与缺失值
- 5、多变量决策树，在此类决
五、神经网络（neural networks）
- 1、模型
- 2、感知机（perceptron）与多层网络
- 3、误差逆传播算法
- 4、全局最小与局部最小
- 5、其他神经网络
- 6、深度学习
六、支持向量机
- 1、间隔与支持向量（support vector）
- 2、对偶问题
- 3、核函数
- 4、软间隔与正则化
- 5、支持向量回归
- 核方法
七、贝叶斯分类
- 1、贝叶斯决策论(Bayesian decision theory)
- 2、朴素贝叶斯分类器
- 3、半朴素贝叶斯分类器
- 4、贝叶斯网
- 5、EM算法
八、集成学习
- 1、个体与集成
- 2、boosting
- 3、Bagging 与随机森林
- 4、结合策略
- 5、多样性
九、聚类
十、降维与度量学习
十一、特征学习与稀疏学习
十二、计算学习理论
十三、半监督学习
十四、概率图模型
十五、规则学习
十六、强化学习
总结

前言

《机器学习》是清华大学出版社出版发行的书籍，作者是周志华。
机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教材，在内容上尽可能涵盖机器学习基础知识的各方面。为了使尽可能多的读者通过本书对机器学习有所了解。
作者试图尽可能少地使用数学知识. 然而, 少量的概率、统计、代数、优化、逻辑知识似乎不可避免。因此, 本书更适合大学三年级以上的理工科本科生和研究生, 以及具有类似背景的对机器学习感兴趣的人士。为方便读者, 本书附录给出了一些相关数学基础知识简介。

一、绪论

1、术语

名词	英文	解释
数据集	data set	记录的集合
示例/样本	instance/sample	单个记录
属性/特征	attribute/feature	反映事物的性质的事项
属性值	attribute value	属性上的取值
属性空间/样本空间	attribute space/sample space	属性张成的空间
特征向量	feature vector	属性空间中的坐标向量
预测	prediction	预测
标记	label	关于示例结果的信息
样例	example	拥有了标记信息的示例
标记空间/输出空间	label space	标记的集合
分类	classification	预测的是离散值
回归	regression	预测是离散值
测试	testing	预测的过程
测试样本	testing sample	被预测的样本
聚类	clustering	分组
簇	cluster	组
泛化	generalization	模型适用于新的样本
版本空间	version space	与训练集一致的假设集合
归纳偏好	inductive bias	学习过程中对某种类型假设的偏好
没有免费的午餐定理	No Free Lunch Theorem	在所有问题同样重要时，没有算法是最好的
错误率	error rate	分类错误的样本数占样本总数的比例
精度	accuracy	1-error rate
训练误差/经验误差	training error/empirical error	学习器在训练集上的误差
泛化误差	generalization error	在新样本上的误差
过拟合	over fitting	将训练样本自身的一些特殊特征当成所有新样本的特征，导致泛化性下降
欠拟合	under fitting	对训练样本的一般性质没有学习好
分层采样	stratified sampling	保留类别比例的采样方式
验证集	validation set	模型评估与选择中用的数据集
均方误差	mean squared error	误差的平方再求平均

2、心得

样本空间的维数由属性的数量决定。
分类和回归是监督学习的代表，聚类是无监督学习的代表。
任何一个有效的机器学习算法都需要由归纳偏好，否则它就会被假设空间中看似在训练集上“等效”的假设所迷糊，从而无法产生正确的学习结果。
NFL定理告诉我们要针对具体的学习问题讨论算法的优劣，具体问题具体分析。

二、模型评估与选择

1、经验误差和过拟合

经验误差为0，分类精度100%，反而在新样本中表现得不够好。
学习能力过于强大，会导致过拟合；学习能力不足会导致欠拟合。
在决策树学习中扩展分支、在神经网络学习中增加训练轮数等能克服欠拟合。
过拟合是无法避免的，只能减少其影响。

2、模型选择

用测试集来测试学习器对新样本的判别能力，以测试集上的测试误差来近似新样本的泛化误差。需要注意的是，测试集需要与训练集互斥。

留出法（hold-out）将数据集分为互斥的训练集和测试集。
交叉验证法（cross validation），将数据集分成k个大小相似的互斥子集，每次用k-1个子集作为训练集，余下的1个子集作为测试集，得到k个测试结果后取均值。又叫k折交叉验证（k-fold cross validation）k最常见取10。还有留一法（leave-one-out，loo），与直接用数据集训练出的结果类似。
自助法（bootstrapping）既可以减少训练样本规模不同造成的影响，又可以降低计算复杂度。有放回的在m个样本的数据集中抽取m个样本作为训练集，其互斥作为测试集，互斥约有0.368，这种测试结果被称为包外估计（out-of-bag estimate）。自助法在数据集较小、难以划分训练集、测试集时有用。但会映入估计偏差。在数据集较大时，一般用上面两个方法。

调参（parameter tuning），参数调的如何往往对最终模型的性能有关键性影响。

3、性能度量（performance measure）

性能好坏是相对的，不仅取决于算法和数据，同时决定于任务需求。
查准率（precision，P）、查全率（recall，R）
真正例（true positive，TP）、假正例（false positive，FP）、真反例（true negative，TN）、假反例（false negative，FN）
在这里插入图片描述
查准率（precision，P）与查全率（recall，R）往往相矛盾，只有在一些简单的任务中，二者才会同时比较高。
平衡点（break-event point，BEP），在P=R时的取值，用来综合考虑性能。更常用的时F1度量，

更一般的形式，能表现出偏好的是
在这里插入图片描述

“受试者工作特征” (Receiver Operating Characteristic，ROC)，根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图’就得到了 ROC 曲线。ROC 曲线的纵轴是"真正例率" (True Positive Rate ，简称 TPR) ，横轴是"假正例率" (False Positive Rate ，简称 FPR)。
在这里插入图片描述
比较曲线下的面积来判断性能优劣。

4、比较检验

统计假设检验（hypothesis test）可以推断出A比B好的概率是多少。
t检验、双边假设、交叉验证t检验（k折交叉验证法）、McNemar检验（留出法）、Friedman 检验与 nenyl 后续检验。

5、偏差与方差

泛化误差可分解为偏差、方差与噪声之和。
在这里插入图片描述

三、线性模型（linear model）

1、线性回归

“线性回归” (linear regression)，用一个线性模型来预测实际输出。线性回归模型可以简写为
在这里插入图片描述

均方误差欧式距离（Euclidean distance）最小二乘法
正则化（regularization）
在这里插入图片描述
因为单位阶跃函数不连续，所以我们使用对数几率函数（sigmoid）作为它的替代函数。

2、线性判别分析（linear discriminant analysis，LDA）

经典的线性学习方法，设法将训练集中的样例投影到一条直线上，使得相似样例的投影点尽可能近，而不同样例的投影点尽可能远。
在这里插入图片描述

3、多分类学习

用二分类学习器来解决多分类问题。一对一（OVO）、一对余（OVR）、多对多（MVM）
编码、解码纠错输出码（error correcting output codes，ECOC）

4、类别不平衡问题

分类任务中不同类别的训练样例数量差别较大。通过欠采样、过采样、阈值移动来解决。

四、决策树（decision tree）

1、基本流程

递归，不断划分
在这里插入图片描述

2、划分选择

信息熵（information entropy）作为划分指标，信息熵越小，纯度越高。信息增益（information gain），信息增益越大，纯度增益越大。
基尼指数(Gini index)衡量纯度，Gini(D) 越小，则数据集的纯度越高。
在这里插入图片描述

3、剪枝处理

剪枝(pruning) 是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝" (prepruning) 和"后剪枝"(postpruning)，预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。可使用第二章介绍的性能评估方法何判断决策树泛化性能是否提升。

4、连续与缺失值

连续属性离散化技术，最简单的策略是采用分法(bi-partition) 对连续属性进行处理。
缺失值处理，

5、多变量决策树，在此类决

在此类决策树中，非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试。
在这里插入图片描述

五、神经网络（neural networks）

1、模型

M-P神经元模型
在这里插入图片描述
这些输入信号通过带权重的连接(connection) 进行传递，神经元接收到的总输入值将与神经元的阀值进行比较，然后通过激活函数（activation function）处理以产生神经元的输出。
sigmod函数又被称为挤压函数。

2、感知机（perceptron）与多层网络

输出层与输入层之间的一层神经元，被称为隐居或隐含层(hidden layer)，隐含层和输出层神经元都是拥有激活函数的功能神经元。
多层前馈神经网络（multi-layer feedforward neural networks），每层神经元与下层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。
在这里插入图片描述

神经网络的学习过程，就是根据训练数据来调整神经元之间的"连接权" (connection weight) 以及每个功能神经元的阑值;换言之，神经网
络"学"到的东西，蕴涵在连接权与阙值中。

3、误差逆传播算法

误差逆传播(error BackPropagation ，简称 BP) 算法，神经网络学习算法。BP 算法基于梯度下降（gradient descent）策略，以目标的负梯度方向对参数进行调整。在这里插入图片描述
BP 算法的目标是要最小化训练集上的累积误差。

4、全局最小与局部最小

误差是关于连接权和阈值的函数。
全局最小一定是局部最小，反之不成立。所以需要全局最小。

5、其他神经网络

RBF(Radial basis Function，径向基函数)网络，是一种单隐层前馈神经网络。
ART(Adaptive Resonance Theory，自适应谐振理论)网络是竞争学习的代表。
SOM(Self-Organizing Map ，自组织映射)网络是竞争学习的的无监督神经网络。
级联相关(Cascade-Correlation）网络是结构自适应网络的重要代表。
Elman 网络是最常用的递归神经网络之一，与前馈神经网络不同"递归神经网络" (recurrent neural networks) 允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信号。

6、深度学习

计算能力的大幅提高可缓解训练低效性，训练数据的大幅增加则可降低过拟合风险，deep learning。
无监督逐层训练(unsupervised layer-wise training) 是多隐层网络训练的有效手段。
“权共享” (weight sharing）在卷积神经网络（convolutional neural network，CNN）中发挥了重要的作用。
在这里插入图片描述

六、支持向量机

1、间隔与支持向量（support vector）

两个异类支持向量到超平面的距离之和被称为间隔（margin）。
需要找到最大化的间隔，支持向量机(Support Vector Machine ，简称 SVM)。

2、对偶问题

SMO (Sequential Minimal Optimization)算法解决二次规划问题。

3、核函数

在这里插入图片描述

我们希望样本在特征空间内线性可分，"核函数选择"成为支持向量机的最大变数。

4、软间隔与正则化

软间隔允许有些样本不满足约束。
在这里插入图片描述

5、支持向量回归

在这里插入图片描述

核方法

在这里插入图片描述
“核线性判别分析” (Kernelized Linear Discriminant Analysis ，简称 KLDA)

七、贝叶斯分类

1、贝叶斯决策论(Bayesian decision theory)

极大似然估计、先验概率、后验噶率

2、朴素贝叶斯分类器

朴素贝叶斯分类器(naive Bayes classifier) 采用了"属性条件独立性假设" (attribute conditional independence assumption):对已知类别，假设所有属性相互独立。换言之，假设每个属性独立地对分类结果发生影响。
拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题。

3、半朴素贝叶斯分类器

在这里插入图片描述
TAN (Tree Augmented naive Bayes)算法和AODE (Averaged One-Dependent Estimator) 算法。

4、贝叶斯网

贝叶斯网 (Bayesian network) 亦称"信念网" (belief network)

5、EM算法

EM (Expectation-Maximization)算法估计参数隐变量。
在这里插入图片描述

八、集成学习

1、个体与集成

集成学习 (ensemble learning) 通过构建并结合多个学习器来完成学习任务。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。在这里插入图片描述

2、boosting

在这里插入图片描述

3、Bagging 与随机森林

4、结合策略

5、多样性

九、聚类

十、降维与度量学习

十一、特征学习与稀疏学习

十二、计算学习理论

十三、半监督学习

十四、概率图模型

十五、规则学习

十六、强化学习

总结

qq_27302491

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书学习笔记

学习目标：过一遍西瓜书学习时间：提示：这里可以添加计划学习的时间例如：1、周一至周五晚上 7 点—晚上9点2、周六上午 9 点-上午 11 点3、周日下午 3 点-下午 6 点学习产出：提示：这里统计学习计划的总量例如：1、技术笔记 2 遍2、CSDN 技术博客 3 篇3、学习的 vlog 视频 1 个...
复制链接

扫一扫