机器学习相关概念

Pisces_DYL

已于 2022-06-10 10:04:45 修改

阅读量396

点赞数 1

文章标签：机器学习分类人工智能

于 2022-06-10 10:02:30 首次发布

本文链接：https://blog.csdn.net/tuygioj/article/details/125204083

版权

第二章模型评估与选择

S1 评估方法

留出法
直接划分为两个互斥的集合如 7:3 or 8:2
k折交叉验证&留一法
应用场景
评估泛化误差，模型调优，找到使得模型泛化性能最优的超参值
过程如图
在这里插入图片描述
假定数据集D中包含m个样本,若令k = m ,则得到了交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO).显然，留一法不受随机样本划分方式的影响。但计算开销难以忍受

自助法（Bootstrap）
自助法（BootStrap）
a.给定包含m个样本的数据集D，我们对它进行采样产生数据集D’:
b.每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;（有放回）
c.这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’，这就是自助采样的结果.
d.D作训练集，D\D’作测试集,D中有36.8%样本未出现在测试集中。
自助法在数据集较小难以有效划分训练集和测试集时很有用。
在这里插入图片描述

S2 性能度量

精度&错误率
若 $m$ 个样本中有 $a$ 个样本分类错误，则错误率为 $\frac{a}{m}$ ，精度为 $1-\frac{a}{m}$

误差&泛化误差
实际预测输出与样本的真实输出之间的差异为误差
模型在新样本上的误差成为泛化误差

过拟合&欠拟合

问题	过拟合	欠拟合
特征	模型在训练集上表现很好，但在测试集上却表现很差(相当于死记硬背）如学习一片叶子，带锯齿的叶片被判定为不是叶子	模型复杂度低，模型在训练集上表现很差，没法学习到数据背后的规律，发生在训练刚开始的时候。
解决	1.获取和使用更多的数据（数据集增强）——解决过拟合的根本性方法 2.采用合适的模型（控制模型的复杂度）3. 降低特征的数量	增加网络复杂度或者在模型中增加特征或多次训练

均方误差
$\frac{\sum(y-\hat{y})^{2}}{n}$

查全率&查准率&F1值
1.查准率（precision）：算法挑出来的西瓜中有多少比例是好西瓜；

查全率（recall）：所有的好西瓜中有多少比例被算法挑了出来。
2.T（true）、F（false）、P（positive）、N（negative）的解释：P表示算法预测这个样本为1（好西瓜）、N表示算法预测这个样本为0（坏西瓜）；T表示算法预测的和真实情况一样，即算法预测正确，F表示算法预测的和真实情况不一样，即算法预测不对。

TP：正确地标记为正，即算法预测它为好西瓜，这个西瓜真实情况也是好西瓜（双重肯定是肯定）；
FP：错误地标记为正，即算法预测它是好西瓜，但这个西瓜真实情况是坏西瓜；
FN：错误地标记为负，即算法预测为坏西瓜，（F算法预测的不对）但这个西瓜真实情况是好西瓜（双重否定也是肯定）；
TN：正确地标记为负，即算法标记为坏西瓜，（T算法预测的正确）这个西瓜真实情况是坏西瓜。
所以有：
在这里插入图片描述

假正例率&真正例率（recall）
在这里插入图片描述

P-R曲线&ROC曲线&AUC&代价曲线
1.P-R 曲线
a.排序：根据学习器的预测结果对样本进行排序，排在前面的是学习器认为最可能是正例的样本，按此顺序逐个把样本正例进行预测，得到当前P和R值，描点连线而得
在这里插入图片描述
2.ROC曲线
所有的负样本中有多少被预测为正例，称为”假正例率”，是ROC曲线的横坐标

同样地，通过测试样例获得真正例率和假正例率的坐标对获得一条曲线

混淆矩阵
对于最常见的二元分类来说，它的混淆矩阵是2乘2的，如下
在这里插入图片描述

TP = True Postive = 真阳性； FP = False Positive = 假阳性

FN = False Negative = 假阴性； TN = True Negative = 真阴性

比如我们一个模型对15个样本进行预测，然后结果如下。

真实值：0 1 1 0 1 1 0 0 1 0 1 0 1 0 0

预测值：1 1 1 1 1 0 0 0 0 0 1 1 1 0 1

加粗样式
相关系数
在这里插入图片描述

标准化&归一化
归一化：将数据的值压缩到0到1之间，公式如下

[公式]

标准化：将数据所防伪均值是0，方差为1的状态，公式如下：

在这里插入图片描述

代价函数

代价函数 梯度下降中的梯度指的是代价函数对各个参数的偏导数，偏导数的方向决定了在学习过程中参数下降的方向，学习率（通常用α表示）决定了每步变化的步长，有了导数和学习率就可以使用梯度下降算法（Gradient Descent Algorithm）更新参数了。
代价曲线在非均等代价下，代价曲线能直接反映出学习器的期望总体代价。 代价曲线横轴是取值为 [0 ，1]的正例概率代价。其中 p 是样例为正例的概率。纵轴是取值为 [0 ， 1] 的归一化代价。代价曲线的绘制： ROC 曲线上每一点对应了代价平面上的一条线段，设ROC 曲线上点的坐标为 (TPR， FPR) ，则可相应计算出 FNR，然后在代价平面上绘制一条从 (0，FPR) 到 (1，FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价;如此将 ROC 曲线土的每个点转化为代价平面上的一条线段，取所有线段的下界，围成的面积（积分）即为在所有条件下学习器的期望总体代价。

第三章线性回归

最小二乘法
试图找到一条直线，使得所有样本到直线上的欧氏距离之和最小
对数线性回归
形式上为线性回归，实际上是非线性函数映射
在这里插入图片描述

几率
$y$ 表示样本 $x$ 作为正例的可能性，下式表示了 $x$ 作为正例的相对可能性
在这里插入图片描述
对数几率回归
优点：
可得到近似概率预测
可被许多数值优化算法直接用于求取最优解
无需事先假设数据分布
梯度下降
方法：求偏导数，向着偏导数最小的方向迭代（按照一定的步长）

第四章决策树

决策树&信息熵&信息增益&增益率**
1.过程

特征选择
特征选择决定了使用哪些特征来做判断。在训练数据集中，每个样本的属性可能有很多个，不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征，也就是分类能力较强的特征。

在特征选择中通常使用的准则是：信息增益。
首先求出信息熵：
在这里插入图片描述
再求出信息增益：

其中Entropy为信息熵，减数为条件熵。

增益率
在这里插入图片描述

决策树生成
选择好特征后，就从根节点触发，对节点计算所有特征的信息增益，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点；对每个子节点使用相同的方式生成新的子节点，直到信息增益很小或者没有特征可以选择为止。

剪枝&预剪枝&后剪枝
决策树剪枝
剪枝的主要目的是对抗「过拟合」，通过主动去掉部分分支来降低过拟合的风险。
1.预剪枝
预剪枝（pre-pruning）：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛化性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。
判断的标准就是看划分前后的泛化性能是否有提升，也就是如果划分后泛化性能有提升，则划分；否则，不划分。
2.后剪枝
后剪枝（post-pruning）：后剪枝就是先把整颗决策树构造完毕，然后自底向上的对非叶结点进行考察，若将该结点对应的子树换为叶结点能够带来泛华性能的提升，则把该子树替换为叶结点。

2.优点
决策树易于理解和解释，可以可视化分析，容易提取出规则；
可以同时处理标称型和数值型数据；
比较适合处理有缺失属性的样本；
能够处理不相关的特征；
测试数据集时，运行速度比较快；
在相对短的时间内能够对大型数据源做出可行且效果良好的结果
3.缺点
容易发生过拟合（随机森林可以很大程度上减少过拟合）；
容易忽略数据集中属性的相互关联；
对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好（典型代表ID3算法），而增益率准则（CART）则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则）（只要是使用了信息增益，都有这个缺点，如RF）。
ID3算法计算信息增益时结果偏向数值比较多的特征。

第五章神经网络

神经网络

由具有适应性的简单单元组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应

激活函数
1.阶跃函数：
在这里插入图片描述
2.Sigmoid

3.ReLu
在这里插入图片描述

在这里插入图片描述

感知机
康康书

BP算法
误差反向传播(error Back Propagation，或者也叫作误差逆传播)算法
基本思想为：在2.1所述的前馈网络中，输入信号经输入层输入，通过隐层计算由输出层输出，输出值与标记值比较，若有误差，将误差反向由输出层向输入层传播，在这个过程中，利用梯度下降算法对神经元权值进行调整。
康康书
早停&正则化
早停机制是一种正则化的手段，用于避免训练数据集上的过拟合。
神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。
优点：防止过拟合
缺点：没有采取不同的方式来解决优化损失函数和降低方差这两个问题，而是用一种方法同时解决两个问题，结果就是要考虑的东西变得更复杂。之所以不能独立地处理，因为如果你停止了优化代价函数，你可能会发现代价函数的值不够小，同时你又不希望过拟合。
解决：使用L1，L2正则化，dropout等
正则化
机器学习中的一个核心问题是设计不仅在训练数据上表现好，并且能在新输入上泛化好的算法。在机器学习中，许多策略显式地被设计来减少测试误差（可能会以增大训练误差为代价）。这些策略被统称伪正则化。
深度学习模型具有很高的灵活性和能力，如果训练数据集不够大，将会造成一个严重的问题–过拟合。尽管它在训练集上效果很好，但是学到的网络不能应用到测试集中，所以在深度学习模型中使用正则化是必要的。

卷积神经网络
卷积神经网络（CNN）

学习方法
使用梯度下降算法进行学习，卷积神经网络的输入特征需要进行标准化处理

构成
卷积神经网络和全连接神经网络相同，主要由输入层、隐藏层、输出层组成，隐藏层中又包括卷积层（核心层），ReLU层、池化（Pooling）层和全连接层。

卷积层
卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量（bias vector），类似于一个前馈神经网络的神经元（neuron）。

卷积层参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸，是卷积神经网络的超参数。其中卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。

池化层
在卷积层中处理后的特征图传送至池化层进行特征选择和信息过滤

全连接层&输出层
对提取的特征进行非线性组合（分类）以得到输出，输出层使用逻辑函数或归一化指数函数输出分类标签

前向传播&后向传播

Dropout&正则化&分批归一化
DropOut
dropout 是指在深度学习网络的训练过程中（CNN），按照一定的概率将一部分神经网络单元暂时从网络中丢弃，相当于从原始的网络中找到一个更瘦的网络，增加泛化能力和鲁棒性

正则化
目的：防止模型过拟合
原理：在损失函数上加上某些规则（限制），缩小解空间，从而减少求出过拟合解的可能性

分批归一化
批量归一化可以看作在每一层输入和上一层输出之间加入了一个新的计算层，对数据的分布进行额外的约束，从而增强模型的泛化能力。但是批量归一化同时也降低了模型的拟合能力，

第六章支持向量机

泛化能力
学习到的模型对未知数据的预测能力
支持向量
距离超平面最近的且满足一定条件的几个训练样本点
支持向量机

简介
a. 支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；
b.SVM还包括核技巧，这使它成为实质上的非线性分类器。 SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。
c.SVM的的学习算法就是求解凸二次规划的最优化算法。

软间隔&硬间隔&正则化
软间隔与硬间隔的区别就是数据近似线性可分,而我们在处理这种情况的时候一般就是允许分类出现一些错误
正则化可理解为一种"惩罚函数法"即对不希望得到的结采施以惩罚，从而使得优化过程趋向于希望目标
核函数&核参数&核技巧
在这里插入图片描述

SVM核函数是用来解决数据线性不可分而提出的，把数据从源空间映射到目标空间（线性可分空间）
核技巧：将低维空间不可分数据映射到高维度的空间
损失函数

损失函数（loss function）就是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数，它是一个非负实值函数，通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。
如均方误差在这里插入图片描述
均方根误差

曼哈顿距离

合辑——聚类分析&降维学习

KNN
一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。也就是说，该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。
Kmeans

轮廓系数
当文本类别未知时，可以选择轮廓系数作为聚类性能的评估指标。轮廓系数取值范围为[-1,1]，取值越接近1则说明聚类性能越好，相反，取值越接近-1则说明聚类性能越差。

a：某个样本与其所在簇内其他样本的平均距离
b：某个样本与其他簇样本的平均距离
则针对某个样本的轮廓系数s为：在这里插入图片描述

监督学习&非监督学习
监督学习：
主要用途：分类（Classify）和回归（Regression）。

常见算法：k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost算法、线性回归、局部加权线性回归、收缩和树回归等

非监督学习：
主要用途：聚类等
常见算法：k-means、Apriori、FP-Growth等
主成分分析-PCA

假定有 n 个样本，每个样本共有 p个变量，构成一个 n*p 阶的数据矩阵 .
当p 较大时，在p维空间中考察问题比较麻烦。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息，同时它们之间又是彼此独立的。

PCA是一个非监督学习
判别式模型
线性回归、逻辑回归、线性判别、集成学习、支持向量机、神经网络、条件随机场、最大熵模型
生成式模型
朴素贝叶斯、隐含马尔科夫模型、限制玻尔兹曼机、高斯混合以及其他混合模型