机器学习期末总复习详解

打代码能当饭吃？

已于 2023-02-11 17:32:38 修改

阅读量4.5k

点赞数 10

分类专栏：机器学习文章标签：人工智能 python

于 2022-01-04 14:58:38 首次发布

本文链接：https://blog.csdn.net/qq_51307413/article/details/122274812

版权

机器学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

第一章人工智能引擎

机器学习与人工智能，深度学习的关系：

人工智能：机器所展现的人类智能。
机器学习：计算机利用已有的数据和经验，得出某种模型，并利用此模型预测未来的一种方法。
深度学习：实现机器学习的一种技术。
人工智能包含机器学习包含深度学习。
衍生出的三大学派：符号主义，连接主义，行为主义
泛化能力：泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力

进行机器学习的步骤

1.准备大数据（Big Data）
2.选定模型（Model）
3.选择损失函数（Loss）
4.设计最优化算法，使得损失函数的值最小（Algorithm）
5.人工智能落地，与具体应用场景结合（Application）
例子：如何设计一个人脸识别
首先收集大规模的人脸数据库；接下来设计一个人脸识别算法模型，这个算法可以是基于神经网络的，也可以是基于特征提取累加分类器的；然后把大规模的人脸数据扔到这个网络或算法里判断这个模型的好坏程度，算出误差。然后通过这误差想办法调整模型里面的参数，经过多次迭代使得模型的参数能够收敛，这样就能用该模型进行人脸识别。

机器学习算法的分类

1.监督学习（K邻近，SVM，决策树，朴素贝叶斯，逻辑回归……）
2.无监督学习（聚类，降维算法，EM算法………）
3.强化算法

第二章模型评估

经验误差与过拟合

错误率：错分样本的占比：E=a/m
误差：样本真实输出与预测输出之间的差异（训练误差：训练集上；测试误差：测试集；泛化误差：除训练集外的所有样本）
过拟合：学习器把训练样本“学习”太好，将训练样本本身的特点当作所有样本的一般性质，导致泛化性能下降
欠拟合：对训练样本的一般性质尚未学好

评估方法

划分训练集和测试集的方法
1.留出法（直接将数据集拆分成训练集和测试集）
2.交叉验证法，k折交叉验证。
3.自助法。
初始数据量足够的时候，留出法和交叉验证法更常用。

性能度量

错误率：分错样本占总样本比例
精度：分对样本占总样本比例
TP：模型预测为正的正样本
TN：模型预测为负的负样本
FP：模型预测为正的负样本
FN：模型预测为负的正样本
准确率：(TP+TN)/(TP+TN+FP+FN)正确预测的正反例数/总数
精确率，查准率(precision)：TP/(TP+FP)正确预测的正例数/预测正例总数
召回率，查全率(recall)，TPR：TP/(TP+FN)正确预测的正例数/实例正例总数
NPR：NP/(TN+FP)

第三章 k邻近算法

KNN算法流程

1.给定一个训练数据集D，对于新的输入的数据x_test,输出其预测标签y_test。
2.在训练集中查找离输入数据x_test最近的K个点
3.统计这k个点中最多类别的标签，赋值给y_test。

1.计算测试数据与各个训练数据之间的距离；
2.按照距离的递增关系进行排序；
3.选取距离最小的K个点；
4.确定前K个点所在类别的出现频率；
5.返回前K个点中出现频率最高的类别作为测试数据的预测分类。

时间复杂度

给定N个训练样本，每个样本为M维向量/特征
当K=1时，时间复杂度是对少？
train:O(1)
test:O(NM)

kd树

根据KNN每次需要预测一个点时，我们都需要计算训练数据集里每个点到这个点的距离，然后选出距离最近的k个点进行投票。当数据集很大时，这个计算成本非常高。
kd树：为了避免每次都重新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算之前从树里查询距离信息，尽量避免重新计算。其基本原理是，如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，就可以在合适的时候跳过距离远的点。
建树过程：
1.根据给出的几个二维样本数据，计算这几个二维样本x轴和y轴的方差
2.选择方差大的轴的数据，例如x轴进行排序，取排完序后处于中间值的样本作为第一维特征
3.重复以上操作，最终得到kd树
时间复杂度O(NMlogN)

k邻近算法优缺点

优点：
1.可以处理分类问题，算法简单易懂
2.可以免去训练过程
3.KNN还可以处理回归问题，也就是预测
缺点：
1.效率低，每一次分类都要对训练数据进行计算
2.对训练数据依赖度特别大，过拟合，欠拟合问题难以权衡
3.存在维数灾难问题

第四章决策树

决策树算法流程

分类决策树是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。节点有两种类型：内部节点和叶子节点。内部节点表示一个特征或属性，叶节点表示一个类。
决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

划分选择

经典的属性划分方法：
1.信息增益：ID3
2.增益率：C4.5
3.基尼指数:CART

信息增益ID3

信息熵是度量样本集合纯度最常用的一种指标。
定义：
在这里插入图片描述
Ent(D)的值越小，则D的纯度越高
计算信息熵时约定：若p = 0，则_plog₂p=0
Ent(D)的最小值为0，最大值为log₂|y|

信息增益率
定义：
在这里插入图片描述

增益率C4.5

增益率
定义：
在这里插入图片描述
称为属性a的“固有值”，属性a的可能取值数目越多（即V越大），则IV(a)的值通常就越大

基尼指数CART

在这里插入图片描述
例子：

剪枝处理

“剪枝”是决策树学习算法对付“过拟合”的主要手段；
可通过“剪枝”来一定程度避免因决策分支过多，以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合；

剪枝的基本策略

预剪枝

从根结点开始，对每一个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分，并将该结点记为叶子节点。
优点：
1.降低过拟合风险
2.显著减少训练时间和测试时间的开销
缺点：
1.欠拟合风险
2.可能陷入局部最优

后剪枝

根据从训练集生成的完整决策树，自底向上地对非叶结点进行分析运算，若该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则让该子树替换为叶结点。
优点：
后剪枝比预剪枝保留了更多的分支，欠拟合风险小，泛化能力往往优于预剪枝决策树。
缺点：
训练时间开销大：后剪枝实在生成完全决策树之后运行的，需要自底向上对所有非叶子结点逐一计算。

第五章朴素贝叶斯算法

贝叶斯公式

在这里插入图片描述

拉普拉斯修正

在这里插入图片描述

第六章逻辑斯蒂回归

logistic回归:分类问题

sigmoid函数：

在这里插入图片描述
为什么要引入sigmoid函数：
为了使原本不连续不可微的函数变成单调可微，任意阶可导的函数。使取值范围位于0~1，便于对概率进行推算。

极大似然估计：
“似然”用通俗的话来说就是可能性，极大似然就是最大的可能性。
我们列出似然函数后，从真实事件中取得一批n个采样样本数据，最大似然估计会寻找基于我们的n个值的采样数据得到的关于的最可能的概率值（即在所有可能的概率取值中，寻找一组概率值使这n个值的采样数据的“可能性”最大化）
求最大似然估计量的一般步骤：

    （1）写出似然函数；
    （2）对似然函数取对数，并整理；
    （3）求导数（求导为零）；
    （4）解似然方程。

第七章支持向量机

最大间隔与分类

在这里插入图片描述
例子：

拉格朗日乘子与对偶问题

求解步骤：

对每条约束添加拉格朗日乘子αi≥0，则该问题的拉格朗日函数可写为：
在这里插入图片描述
其中α=(α1,α2,…,αm)，令L(w,b,α)对w和b求偏导为0可得（此处涉及到矩阵求导）：

将上式带入拉格让日函数中w和b消去：

从而得到对偶问题：

解出α后，通过

KKT

在这里插入图片描述
什么情况下α_i不为0?
当其他点对分类线的确定没有起到作用时，α_i不为0；只有支持向量对应的几个点的α_i为0.

核函数

引入核函数是为了将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。
在这里插入图片描述

第八章深度学习

感知机算法

在这里插入图片描述

BP神经网络原理

在这里插入图片描述
算法：

第九章主成分分析(PCA)

特征维度约减

目的是将高维特征向量映射到低维子空间，以为大多数机器学习算法在高维空间表现并不好

PCA主成分分析

算法流程：
在这里插入图片描述
例子：

打代码能当饭吃？

关注

10
点赞
踩
173

收藏

觉得还不错? 一键收藏
打赏
5
评论
机器学习期末总复习详解

机器学习实战第一章人工智能引擎机器学习与人工智能，深度学习的关系：进行机器学习的步骤机器学习算法的分类第二章模型评估经验误差与过拟合评估方法性能度量第三章 k邻近算法KNN算法流程时间复杂度kd树k邻近算法优缺点第四章决策树决策树算法流程划分选择信息增益ID3增益率C4.5基尼指数CART剪枝处理剪枝的基本策略预剪枝后剪枝第五章朴素贝叶斯算法贝叶斯公式拉普拉斯修正第六章逻辑斯蒂回归logistic回归:分类问题第七章支持向量机最大间隔与分类拉格朗日乘子与对偶问题第一章人工智能引擎机器学习与
复制链接

扫一扫