机器学习期末复习笔记

最新推荐文章于 2024-06-11 18:19:31 发布

DataLiu

最新推荐文章于 2024-06-11 18:19:31 发布

阅读量6.9k

点赞数 8

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_41282377/article/details/104425399

版权

机器学习专栏收录该内容

4 篇文章 3 订阅

订阅专栏

一、L1（ Lasso回归）、L2（岭回归）正则异同

区别：
1：下降的速度
L1，L2都是规则化的方式，最小化目标函数，类似于一个下坡的过程，所以它们下降的坡不同，L1是按照绝对值函数下坡，L2是按照二次函数下坡，在0附近，L1的速度更快。
在这里插入图片描述
2：模型空间的限制
L1会将模型限制一个正方形区域，L2将模型限制在一个圆的区域，二维情况如图所示：
总结就是L1会使得某些参数为0，具有稀疏性，而L2没有这个功能，使得参数的值比较小去降低过拟合。
在这里插入图片描述

3、原理：L1正则化是指权值向量www中各个元素的绝对值之和，通常表示为∣∣w∣∣1||w||_1∣∣w∣∣；L2正则化是指权值向量www中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为∣∣w∣∣2||w||_2∣∣w∣∣

异同点：

① L1是模型各个参数的绝对值之和；L2是模型各个参数平方和的开方值。
②L1产生稀疏矩阵，用于特征选择；L2产生非零稠密矩阵。
③ L1可产生0解；L2产生的是趋向于0的解。
④ L1范数符合拉普拉斯分布，是不完全可微的；L2范数符合高斯分布，是完全可微的。

相同点：

降低模型过拟合程度，增加训练样本、L1正则化、L2 正则化、减小模型复杂度都能有效避免发生过拟合。

在这里插入图片描述

二、logistics Regression
logistic回归是一个分类算法，它可以处理二元分类以及多元分类。首先逻辑回归构造广义的线性回归函数，然后使用sigmoid函数将回归值映射到离散类别。

三、SVM
支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervisedlearning）方式对数据进行二元分类（binary classification）的广义线性分（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。基本思想是：找到集合边缘上的若干数据（称为支持向量（SupportVector）），用这些点找出一个平面（称为决策面），使得支持向量到该平面的距离最大。由简至繁的 SVM 模型包括：
 当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；
 当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；
 当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

在分类问题中，很多时候有多个解，如下图左边所示，在理想的线性可分的情况下其决策平面会有多个。而 SVM 的基本模型是在特征空间上找到最佳的分离超平面使得练集上正负样本间隔最大，SVM 算法计算出来的分界会保留对类别最大的间距，即有足够的余量，如下图右边所示。

在这里插入图片描述

1. 什么是SVM？

SVM全称是：Support Vector Machine，SVM的基本模型是在特征空间找到最佳的分离超平面使得训练集上的正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法，在引入了核方法后SVM也可以用来解决非线性的问题。

SVM实现方法主要是将在低维空间中线性不可分的数据映射到高维空间，在找到数据的最佳的分离超平面，从而得出模型。

四、bag of words

1、什么是Bag of words？

词袋模型，对样本数据的一种表示方法。

2.、文本特征化

对于文本，通常使用的是BOW词袋模型表示特征，即将文本映射成一个词的向量，向量的长度就是词典的大小，每一位表示词典中的一个词，向量中每位上的数值表示该词在文本中出现的次数。

3、词袋模型的缺点

词袋模型的缺点在于原文本的词序信息会丢失。
1.给定一个弱学习算法,和一个训练集;
2.单个弱学习算法准确率不高;
3.将该学习算法使用多次,得出预测函数序列,进行投票;
4.最后结果准确率将得到提高.

算法步骤

给定一个大小为n的训练集D，Bagging算法从中均匀、有放回地（即使用自助抽样法）选出m个大小为n’的子集Di，作为新的训练集。在这m个训练集上使用分类、回归等算法，则可得到m个模型，再通过取平均值、取多数票等方法，即可得到Bagging的结果

五、boost strap adaboost boosting

在这里插入图片描述

Bagging：基于数据随机重抽样的分类器构建方法
⚫ 利用bootstrap方法从整体数据集中采取有放回抽样得到N个数据集
Boosting（Adaptive Boosting的简称）,基于错误提升分类器性能，通过集中关注被已有分类器分类错误的样本，构建新分类器
⚫ 初始的分布应为等概分布。
⚫ 每次循环后提高错误样本的分布概率，分错的样本在训练集中所占权重增大,使得下一次循环的基分类器能够集中力量对这些错误样本进行判断。
⚫ 计算分类器的权重，识别率越高的基分类器权重越高,识别率越低的基分类器权重越低。
Bagging与Boosting 都采用采样-学习-组合的方式，不同在于：
✓Bagging中每个训练集互不相关，也就是每个基分类器互不相关，而Boosting中训练集要在上一轮的结果上进行调整，也使得其不能并行计算
✓Bagging中预测函数是均匀平等的，但在Boosting中预测函数是加权的
Adaptive Boosting 或称为 AdaBoost，是多种学习算法的融合。它是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最终的决策分类器。
AdaBoost 是最常用的算法。它可用于回归或者分类算法。相比其他机器学习算法，它克服了过拟合的问题，通常对异常值和噪声数据敏感。为了创建一个强大的复合学习器，AdaBoost 使用了多次迭代。因此，它又被称为“AdaptiveBoosting”。通过迭代添加弱学习器，AdaBoost 创建了一个强学习器。一个新的弱学习器加到实体上，并且调整加权向量，作为对前一轮中错误分类的样例的回应。得到的结果，是一个比弱分类器有更高准确性的分类器。
AdaBoost 有助于将弱阈值的分类器提升为强分类器。Adaboost 系列主要解决了：两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题。它用全部的训练样本进行学习

在这里插入图片描述

六、precision、recall（召回率）、F1 score

召回率(Recall)也叫查全率，是指在分类中样本中的正例有多少被预测正确了。通常，准确率高时，召回率偏低；召回率高时，准确率偏低。List item

精确率（Precision），是指在分类样本中被预测正确的有多少正例。

在这里插入图片描述

九、K-means

K-means（又称k-均值或k-平均）聚类算法。算法思想就是首先随机确定k个中心点作为聚类中心，然后把每个数据点分配给最邻近的中心点，分配完成后形成k个聚类，计算各个聚类的平均中心点，将其作为该聚类新的类中心点，然后重复迭代上述步骤直到分配过程不再产生变化。
K-均值是著名聚类算法，它找出代表聚类结构的 k 个质心。如果有一个点到某一质心的距离比到其他质心都近，这个点则指派到这个最近的质心所代表的簇。依次，利用当前已聚类的数据点找出一个新质心，再利用质心给新的数据指派一个簇。
K-均值算法——在上图中用“x”表示聚类质心，用点表示训练样本：

a) 原始数据集
b) 随机初始化聚类质心
c) (c-f)k-均值迭代 2 次的示意图
在每次迭代中每个训练样例都被指派到一个最近的聚类质心，每个聚类质心被移动到分配给它的点的平均值的位置。

K-Means的主要优点：

原理简单易实现；
可解释度较强；
聚类的效果较优；
需要调节的参数少，只有k；
收敛速度快。

K-Means的主要缺点：

k值难以确定；
结果只是局部最优；
对噪声和异常点敏感；
样本需要存在均值；
聚类中心的初始化将直接影响最后的聚类效果；

十、PCA（主成分分析）
将原始特征空间映射到彼此正交的特征向量空间，在非满秩的情况下使用SVD 分解来构建特征向量。
在这里插入图片描述

1.定义：
PCA是一种分析、简化数据集的技术，经常用于减少数据集的维数，同时保持数据集中对方差贡献最大的特征。说得通俗一点，就是把数据集中重要的特征保留下来，除去不重要的特.

2.PCA的算法流程

1.样本归一化
2.求样本特征的协方差矩阵
3.选取k个最大特征值
4.组成特征向量矩阵
5.将样本数据投影至特征向量矩阵上。

十一、overfitting – underfitting

1.Under-fitting（欠拟合）

模型学习能力弱，而数据复杂度较高时，模型无法学到数据的“一般规律”。导致在训练集和测试集中的数据拟合效果很差。其输出结果高偏差。

2.Over-fitting（过拟合）

模型能力太强，导致每一个样本的特点都能被模型捕捉到，并将其认为是数据的“一般规律”。导致在训练集中的训练结果很好，但泛化能力太差。其输出结果高方差。

Under-fitting出现的原因及解决方法

出现的原因
1. 模型复杂度太低；
2. 数据特征太少；

解决方法：
1. 增加新特征；
2. 添加多项式特征；
3. 减少正则化参数；
4. 使用非线性模型；
5. 调整模型容量；
6. 使用集成学习方法；

Over-fitting出现的原因及解决方法

出现的原因
1. 建模样本选取有误
2. 样本噪声干扰过大
3. 假设成立条件实际不成立
4. 参数太多，模型太复杂

解决方法
1. 正则化L1、L2
2. 增加数据
3. 使用Dropout方法，即在训练时以一定概率忽略某些节点
4. Early stopping：限制训练时间

十二、K-fold cross-validation( K-折交叉验证法 )
将数据集划分为 k 个大小相似的互斥子集，并且尽量保证每个子集数据分布的一致性。这样，就可以获取 k 组训练 - 测试集，从而进行 k 次训练和测试，k通常取值为10。
在这里插入图片描述

十三、SSM（sum of squared error）

总和平方误差（SSE）是一种精度度量，其中误差平方，然后相加。当数据点的大小相似时，可用于确定预测模型的准确性。SSE越低，预测越准确。了解此准确性统计信息将帮助您选择最适合您数据的预测模型。

十四、超参数

1. 定义：

在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。超参数的设定，将直接影响到学习的性能和效果。

DataLiu

关注

8
点赞
踩
111

收藏

觉得还不错? 一键收藏
0
评论
机器学习期末复习笔记

一、L1（ Lasso回归）、L2（岭回归）正则异同区别：1：下降的速度L1，L2都是规则化的方式，最小化目标函数，类似于一个下坡的过程，所以它们下降的坡不同，L1是按照绝对值函数下坡，L2是按照二次函数下坡，在0附近，L1的速度更快。2：模型空间的限制L1会将模型限制一个正方形区域，L2将模型限制在一个圆的区域，二维情况如图所示：总结就是L1会使得某些参数为0，具有稀疏性，而L2没...
复制链接

扫一扫