算法面试必备-----数据挖掘常见面试题

最新推荐文章于 2023-05-29 11:05:58 发布

Avery123123

最新推荐文章于 2023-05-29 11:05:58 发布

阅读量3.8k

点赞数 10

分类专栏：算法岗面试笔试准备

本文链接：https://blog.csdn.net/Avery123123/article/details/107386505

版权

算法岗面试笔试准备专栏收录该内容

32 篇文章 12 订阅

订阅专栏

算法面试必备-----数据挖掘常见面试题

算法面试必备-----数据挖掘常见面试题

算法面试必备-----数据挖掘常见面试题

一、数据挖掘概念

1、数据挖掘的基础是什么？

现在已经成熟的三种技术支持这种技术：大规模数据收集，强大的多处理器计算机和数据挖掘算法。

2、数据挖掘的优缺点？

优点：
基本上，为了找到可能的违约者，我们在银行和金融机构中使用数据挖掘。此外，这是基于过去的事务，用户行为和数据模式完成的。

通常，它可以帮助广告商将正确的广告推向互联网。此外，它基于机器学习算法在网页上冲浪。此外，通过这种方式，数据挖掘既有利于买家，也有利于各种产品的销售者。

基本上，零售商场和杂货店的人们都使用它。此外，它是安排和保持大多数可销售物品在最关注的位置。

缺点：
安全性：用户在线用于各种用途的时间必须很重要。他们没有安全系统来保护我们。一些数据挖掘分析使用软件。这很难操作。因此他们需要用户进行基于知识的培训。数据挖掘技术不是100％准确。因此，它可能在某些条件下造成严重后果。

3、列出数据挖掘中使用的步骤？

a。业务理解

b, 数据理解

C。数据准备

d。造型

e, 评估

F。部署

4、数据挖掘有哪些问题？

任何严肃的数据挖掘包都需要解决许多问题

不确定性处理

处理缺失值

处理噪声数据

算法的效率

限制发现的知识只有用

纳入领域知识

数据的大小和复杂性

数据选择

可理解的发现知识：数据与发现的知识之间的一致性。

二、机器学习理论

1、极大似然估计

（1）定义

极大似然估计：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值（模型已定，参数未知）。
在这里插入图片描述

（2）求解极大似然估计的方法：

在这里插入图片描述
求最大似然估计量的一般步骤：
1）写出似然函数；
2）对似然函数取对数，并整理；
3）求导数；
4）解似然方程。

（3）极大似然估计和梯度下降法的区别是什么？

在这里插入图片描述
不同

2、批梯度下降法和SGD的区别是什么？为什么有这样的区别？

在这里插入图片描述

三、数据预处理

1、异常值是指什么?请列举1种识别连续型变量异常值的方法?

异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
在这里插入图片描述

2、什么是数据标准化，为什么要进行数据标准化？

数据标准化是预处理步骤，将数据标准化到一个特定的范围能够在反向传播中保证更好的收敛。一般来说，是将该值将去平均值后再除以标准差。如果不进行数据标准化，有些特征（值很大）将会对损失函数影响更大（就算这个特别大的特征只是改变了1%，但是他对损失函数的影响还是很大，并会使得其他值比较小的特征变得不重要了）。因此数据标准化可以使得每个特征的重要性更加均衡。

3、如何处理缺失值数据？

数据中可能会有缺失值，处理的方法有两种:
一种是删除整行或者整列的数据
另一种则是使用其他值去填充这些缺失值。

在Pandas库，有两种很有用的函数用于处理缺失值：isnull()和dropna()函数能帮助我们找到数据中的缺失值并且删除它们。如果你想用其他值去填充这些缺失值，则可以是用fillna()函数。

（1）均值插补
如果样本属性的距离是可度量的，则使用该属性有效值的平均值来插补缺失的值；
如果的距离是不可度量的，则使用该属性有效值的众数来插补缺失的值。如果使用众数插补，出现数据倾斜会造成什么影响？

（2）同类均值插补
首先将样本进行分类，然后以该类中样本的均值来插补缺失值。

（3）建模预测
将缺失的属性作为预测目标来预测，将数据集按照是否含有特定属性的缺失值分为两类，利用现有的机器学习算法对待预测数据集的缺失值进行预测。
该方法的根本的缺陷是如果其他属性和缺失属性无关，则预测的结果毫无意义；但是若预测结果相当准确，则说明这个缺失属性是没必要纳入数据集中的；一般的情况是介于两者之间。

（4）高维映射
将属性映射到高维空间，采用独热码编码（one-hot）技术。将包含K个离散取值范围的属性值扩展为K+1个属性值，若该属性值缺失，则扩展后的第K+1个属性值置为1。
这种做法是最精确的做法，保留了所有的信息，也未添加任何额外信息，若预处理时把所有的变量都这样处理，会大大增加数据的维度。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值；缺点是计算量大大提升，且只有在样本量非常大的时候效果才好。

4、如何进行探索性数据分析(EDA)？

EDA的目的是去挖掘数据的一些重要信息。一般情况下会从粗到细的方式进行EDA探索。一开始我们可以去探索一些全局性的信息。观察一些不平衡的数据，计算一下各个类的方差和均值。看一下前几行数据的信息，包含什么特征等信息。使用Pandas中的df.info()去了解哪些特征是连续的，离散的，它们的类型(int、float、string)。接下来，删除一些不需要的列，这些列就是那些在分析和预测的过程中没有什么用的。

比如：某些列的值很多都是相同的，或者这些列有很多缺失值。当然你也可以去用一些中位数等去填充这些缺失值。然后我们可以去做一些可视化。对于一些类别特征或者值比较少的可以使用条形图。类标和样本数的条形图。找到一些最一般的特征。对一些特征和类别的关系进行可视化去获得一些基本的信息。然后还可以可视化两个特征或三个特征之间的关系，探索特征之间的联系。

你也可以使用PCA去了解哪些特征更加重要。组合特征去探索他们的关系，比如当A=0，B=0的类别是什么，A=1，B=0呢？比较特征的不同值，比如性别特征有男女两个取值，我们可以看下男和女两种取值的样本类标会不会不一样。

另外，除了条形图、散点图等基本的画图方式外，也可以使用PDF\CDF或者覆盖图等。观察一些统计数据比如数据分布、p值等。这些分析后，最后就可以开始建模了。

一开始可以使用一些比较简单的模型比如贝叶斯模型和逻辑斯谛回归模型。如果你发现你的数据是高度非线性的，你可以使用多项式回归、决策树或者SVM等。特征选择则可以基于这些特征在EDA过程中分析的重要性。如果你的数据量很大的话也可以使用神经网络。然后观察ROC曲线、查全率和查准率。

5、给定一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？

由于数据分布在中位数附近，先假设这是一个正态分布。在一个正态分布中，约有 68％的数据位于跟平均数（或众数、中位数）1 个标准差范围内的，那样剩下的约 32%的数据是不受影响的。因此，约有 32%的数据将不受到缺失值的影响。

6、对于不平衡数据集，有什么应对方案？

即数据集中，每个类别下的样本数目相差很大。例如，在一个二分类问题中，共有 100 个样本（100 行数据，每一行数据为一个样本的表征），其中 80 个样本属于 class 1，其余的 20 个样本属于 class 2，class 1:class2=80:20=4:1，这便属于类别不均衡。当然，类别不均衡问题同样会发生在多分类任务中。

解决不平衡分类问题的策略可以分为两大类：一类是从训练集入手 , 通过改变训练集样本分布，降低不平衡程度；另一类是从学习算法入手 , 根据算法在解决不平衡问题时的缺陷 , 适当地修改算法使之适应不平衡分类问题。平衡训练集的方法主要有训练集重采样 (re-sampling)方法和训练集划分方法。学习算法层面的策略包括分类器集成、代价敏感学习和特征选择方法等。
在这里插入图片描述

7、什么是欠采样和过采样？

使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集：欠采样和过采样。欠采样是通过减少丰富类的大小来平衡数据集，当数据量足够时就该使用此方法。通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本，可以检索平衡的新数据集以进一步建模。当数据量不足时就应该使用过采样，**它尝试通过增加稀有样本的数量来平衡数据集，而不是去除丰富类别的样本的数量。**通过使用重复、自举或合成少数类过采样等方法（SMOTE）来生成新的稀有样品。

欠采样和过采样这两种方法相比而言，都没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。另外将过采样和欠采样结合起来使用也是成功的。

8、为什么需要对数值类型的特征做归一化?

分析与解答
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要再以下两种：

( 1 )线性函数归化( Min-Max Scaling ) 。它对原始数据进行线性变换，使结果映射到 [0,1] 的范围，实现对原始数据的等比缩放。归一化公式如下：

( 2 )零均值归一化( Z-Score Normalization ) 。它会将原始数j居映射到均值为 0 ，标准差为 1 的分布上。那么归一化公式定义为：

实例说明

为何归一化
注意：当然，数据归一化并不是万能的。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的。包括：线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用，以 C4.5 为例，决策树在进行节点分裂时主要依据数据集 D 关于特征 x的信息增益比，而信息增益比跟特征是否经过归一化是无关的，因为归一化并不会改变样本在特征 x 上的信息增益。

9、在对数据进行预处理时，应该怎样处理类别型特征？

分析与解答
序号编码( Ordinal Encoding )
独热编码( One-hot Encoding )
二进制编码( Binary Encoding)

独热编码1
在这里插入图片描述

10、什么是组合特征，如何处理高维组合特征？

分析与解答
为了提高复杂关系的拟合能力，在恃征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。

在这里插入图片描述

11、怎样有效的找到组合特征？

本节介绍一种基于决策树的特征组合寻找方法。
假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物晶类型(护肤、食晶等) 4 个方面的信息，并且根据原始输入和标签(点击 /未点击)构造出了决策树，如国 1.2所示。
在这里插入图片描述

12、有哪些文本表示模型？他们各自有什么优缺点？

在这里插入图片描述

13、Word2Vec是如何工作的?和 LDA有什么区别与联系?

分析与解答
在这里插入图片描述

14、在图像分类任务中，训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?

分析与解答
为了提高复杂关系的拟合能力，在恃征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。
在这里插入图片描述

四、特征选择与特征提取（降维）

1、特征选择与提取相同点与不同点

相同点与不同点
 相同点：特征选择和特征提取二者达成的效果相似，都是试图减少数据集中属性（特征）的数量，找出最有效（同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性）的特征。
 不同点：特征提取（降维）主要通过属性间的关系，通过组合原有属性产生新的属性，最终会改变特征空间；特征选择是在原始数据集中提取特征的子集，是一种包含关系，不改变特征空间。

2、特征选择的方法

特征选择是一个重要的数据预处理过程，主要有两个原因：一是减少特征数量、降维，使模型泛化能力更强，减少过拟合;二是增强对特征和特征值之间的理解

方法一：Filter（过滤型）

（1）方差选择法
　　使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

（2）相关系数法
使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值

（3）互信息法
在这里插入图片描述

方法二：Wrapper（包裹型）

递归特征消除法
在这里插入图片描述

方法三：Embedded（嵌入型）

（1）基于惩罚项的特征选择法
使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。
实际上，**L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的特征不代表不重要。**故，可结合L2惩罚项来优化。具体操作为：若一个特征在L1中的权值为1，选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合，将这一集合中的特征平分L1中的权值，故需要构建一个新的逻辑回归模型：
在这里插入图片描述

（2）基于树模型的特征选择法
树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型
在这里插入图片描述

3、特征提取（降维）的方法

主成分分析法（PCA）

线性判别分析法（LDA）

PCA和LDA参考

五、模型的评估

1、模型评估的方法有哪些？

（1）留出法

在这里插入图片描述

（2）交叉验证法

在这里插入图片描述

（3）自助法

在这里插入图片描述

2、什么是 K-fold 交叉验证？

K-fold 交叉验证就是把原始数据随机分成 K 个部分，在这 K 个部分中选择一个作为测试数据，剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次，每次实验都从 K 个部分中选择一个不同的部分作为测试数据，剩余的数据作为训练数据进行实验，最后把得到的 K 个实验结果平均，用于评价模型的泛化能力，从而进行模型选择。

六、模型的性能度量

1、讲讲模型的性能度量

（1）错误率与精度

在这里插入图片描述

（2）查准率与查全率（精确率与召回率）

在这里插入图片描述

（3）P-R曲线

在这里插入图片描述

（4） F1值

在这里插入图片描述

（5） ROC曲线与AUC

ROC 曲线是 Receiver Operating Characteristic Curve 的简称，中文名为“受试者工作特征曲线” 。 ROC 曲线源于军事领域，而后在医学领域应用甚广， “受试者工作特征曲线 ” 这一名称也正是来自于医学领域
在这里插入图片描述

2、简述准确率(Precision)、召回率(Recall)统计量的含义？

在这里插入图片描述

3、简述 F 值(F-Measure)统计量的含义？

在这里插入图片描述

4、简述 ROC 曲线统计量的含义？

ROC 曲线 X 轴为 false positive rate（FPR），Y 轴为 true positive rate（TPR）：

在这里插入图片描述
考虑 ROC 曲线图中的四个点和一条线。第一个点(0,1)，即 FPR=0, TPR=1，这意味着 FN（false negative）=0，并且 FP（false positive）=0。Wow，这是一个完美的分类器，它将所有的样本都正确分类。第二个点，(1,0)，即 FPR=1，TPR=0，类似地分析可以发现这是一个最糟糕的分类器，因为它成功避开了所有的正确答案。第三个点，(0,0)，即 FPR=TPR=0，即 FP（false positive）=TP（ true positive ） =0 ，可以发现该分类器预测所有的样本都为负样本（negative）。类似的，第四个点（1,1），分类器实际上预测所有的样本都为正样本。经过以上的分析，我们可以断言，ROC 曲线越接近左上角，该分类器的性能越好。

考虑 ROC 曲线图中的虚线 y=x 上的点。这条对角线上的点其实表示的是一个采用随机猜测策略的分类器的结果，例如(0.5,0.5)，表示该分类器随机对于一半的样本猜测其为正样本，另外一半的样本为负样本。

当测试集中的正负样本的分布变化的时候，ROC 曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。下图是 ROC 曲线和 Precision-Recall 曲线的对比：
在这里插入图片描述
(a)和©为 ROC 曲线，(b)和(d)为 Precision-Recall 曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，©和(d)是将测试集中负样本的数量增加到原来的 10 倍后，分类器的结果。可以明显的看出，ROC 曲线基本保持原貌，而 Precision-Recall 曲线则变化较大。

5、如何画出一个 ROC 曲线？

在这里插入图片描述

当我们将 threshold 设置为 1 和 0 时，分别可以得到 ROC 曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了 ROC 曲线。当 threshold 取值越多， ROC 曲线越平滑。

其实，我们并不一定要得到每个测试样本是正样本的概率值，只要得到这个分类器对该测试样本的“评分值”即可（评分值并不一定在(0,1)区间）。评分越高，表示分类器越肯定地认为这个测试样本是正样本，而且同时使用各个评分值作为threshold。

6、简述 AUC 曲线统计量的含义？

AUC（Area Under Curve）被定义为 ROC 曲线下的面积，显然这个面积的数值不会大于 1。又由于 ROC 曲线一般都处于 y=x 这条直线的上方，所以 AUC 的取值范围在 0.5 和 1 之间。使用 AUC 值作为评价标准是因为很多时候 ROC 曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应 AUC 更大的分类器效果更好。

首先 AUC 值是一个概率值，当你随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的 Score 值将这个正样本排在负样本前面的概率就是 AUC 值。当然，AUC 值越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

显然 A 点为最优点，ROC 曲线越靠近 A 点代表模型表现越好，曲线下面积（Area Under Curve, AUC）越大，AUC 是衡量模型表现好坏的一个重要指标。
在这里插入图片描述

7、数据集不平衡时采用评价指标呢？

评估指标1：recall，Precision，F-score

其中F-score是两者的中和，一般认为F-measure越高，分类器的性能越好；
Precision就是提交给用户的结果里边，究竟有多少是对的；
Recall是一共有这么多的有用结果（包括真正的正样本和负样本），系统究竟能判定出来多少是有用的（能够检出多少？），或者反过来说，我们究竟丢了多少有用的。

这两个数是成对出现，单独出现没有意义。为什么这么说？一个例子是我可以轻轻松松将recall提高到100%，那就是不管用户查询啥，我都把系统内所有的文档都给他，这样肯定没丢东西，但是用户也没法得到的好的结果。

但是我们还是希望有一个数能够衡量系统的性能，否则系统A的precision比系统B高，但是recall却比系统B低，那么我们就不太好选了。所以综合Precision和Recall，我们得到一个F Score

在这里插入图片描述

评估指标2：ROC（接受者操作特征曲线）与AUC

以假正率为x轴，以真正率为y轴做出的曲线。
AUC即ROC特征曲线下面的面积，AUC越大分类器性能越好。最后说说AUC的优势，AUC的计算方法同时考虑了分类器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器作出合理的评价。例如在反欺诈场景，设非欺诈类样本为正例，负例占比很少（假设0.1%），如果使用准确率评估，把所有的样本预测为正例便可以获得99.9%的准确率。但是如果使用AUC，把所有样本预测为正例，TPRate和FPRate同时为1，AUC仅为0.5，成功规避了样本不均匀带来的问题。

简述 ROC 曲线统计量的含义？

ROC 曲线 X 轴为 false positive rate（FPR），Y 轴为 true positive rate（TPR）：

如何画出一个 ROC 曲线？

简述 AUC 曲线统计量的含义？

AUC为什么对不平衡的情况不敏感？

AUC就是所有正样本中随机选取一个样本A，所有负样本中随机选取一个样本B，然后根据分类器对两个随机样本进行预测，把样本A预测为正类的概率=p1，把样本B预测为正类的概率=p0，p1>p0的概率即为AUC。

(因为它不依赖决定分类时候的阈值，是直接排序计算的)

8、面对不平衡数据，还有哪些深度学习上的方法？

权值均衡

权值均衡是在训练样本的时候，在计算loss的时候，通过权值来均衡数据的分布。正常情况下，每个类别在损失函数中的权值是1.0。但是有时候，当某些类别特别重要的时候，我们需要给该类别的训练样本更大权值。参考我们的买房的例子，由于“买”的类别的准确率非常的重要，训练样本中的这个类别应该对损失函数有更大的影响。

**可以直接给对应的类别的样本的loss乘上一个因子来设定权值。**在Keras中，我们可以这样：

我们创建了一个字典，其中，“买”类别为75%，表示了占据了75%的loss，因为比“不买”的类别更加的重要，“不买”的类别设置成了25%。当然，这两个数字可以修改，直到找到最佳的设置为止。我们可以使用这种方法来均衡不同的类别，当类别之间的样本数量差别很大的时候。我们可以使用权值均衡的方式来使我们的所有的类别对loss的贡献是相同的，而不用取费力的收集少数类别的样本了。

另一个可以用来做训练样本的权值均衡的是Focal loss。如下所示，主要思想是这样：在数据集中，很自然的有些样本是很容易分类的，而有些是比较难分类的。在训练过程中，这些容易分类的样本的准确率可以达到99%，而那些难分类的样本的准确率则很差。问题就在于，那些容易分类的样本仍然在贡献着loss，那我们为什么要给所有的样本同样的权值？

在这里插入图片描述

这正是Focal loss要解决的问题。focal loss减小了正确分类的样本的权值，而不是给所有的样本同样的权值。这和给与训练样本更多的难分类样本时一样的效果。在实际中，当我们有数据不均衡的情况时，我们的多数的类别很快的会训练的很好，分类准确率很高，因为我们有更多的数据。但是，为了确保我们在少数类别上也能有很好的准确率，我们使用focal loss，给与少数类别的样本更高的权值。focal loss使用Keras是很容易实现的：

过采样和欠采样

选择合适的类别的权重有时候比较复杂。做一个简单的频率倒数可能有时候效果也不好。Focal loss有点用，但是仍然会对所有的正确分类的样本都做权值的下降。另外一个数据均衡的方法就是直接的采样。下面的图给出了一个大概的说明.
在这里插入图片描述

在图像的两边，蓝色的类别比橘黄色的类别的样本多得多。这种情况下，我们在预处理时，有两种选择。

欠采样意思是从多数的类别中只采样其中的一部分的样本，选择和少数类别同样多的样本。这种采样保持了该类别原来的数据分布。这很容易，我们只需要少用点样本就可以让数据变得均衡。

过采样的意思是我们复制少数类别中的样本，使得数量和多数样本一样多。复制操作需要保持少数样本的原有的数据分布。我们不需要获取更多的数据就可以让数据集变得均衡。

采样的方法是一个很好的类别均衡的方法，如果你发现类别权值很难做而且效果不好的时候，可以试试！

9、你会在时间序列数据集上使用什么交叉验证技术？是用 k 倍或LOOCV？

都不是。对于时间序列问题，k 倍可能会很麻烦，因为第 4 年或第 5 年的一些模式有可能跟第 3 年的不同，而对数据集的重复采样会将分离这些趋势，我们可能最终是对过去几年的验证，这就不对了。相反，我们可以采用如下所示的 5 倍正向链接策略(1，2，3，4，5，6 代表年份)：

fold 1 : training [1], test [2]

fold 2 : training [1 2], test [3]

fold 3 : training [1 2 3], test [4]

fold 4 : training [1 2 3 4], test [5]

fold 5 : training [1 2 3 4 5], test [6]

七、过拟合与欠拟合及处理

1、过拟合和欠拟合的学习曲线怎么画，横纵坐标轴分别代表什么？实际应用当中，如何区分你是过拟合还是前拟合？

学习曲线是什么？

学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率，可以看到模型在新数据上的表现，进而来判断模型是否方差偏高或偏差过高，以及增大训练集是否可以减小过拟合。

学习曲线与交叉验证的关系

由于一次学习的数据不够准确，因此，使用交叉验证，设置多次(组)数据，获得多组train_scores, test_scores, 返回给learning_curve API。

怎么画？

在画学习曲线时，横轴为训练样本的数量，纵轴为准确率。

sklearn中sklearn.model_selection.learning_curve函数说明：

通过cv设置交叉验证，取几次(组)数据，通过train_sizes设置每一次取值，在不同训练集大小上计算得分。

train_sizes，train_scores，test_score = learning_curve ( estimator, X, y, groups=None, train_sizes=array([0.1, 0.33, 0.55, 0.78, 1. ]), cv=’warn’, scoring=None)

estimator：估计器，用什么模型进行学习；

cv:交叉验证生成器，确定交叉验证拆分策略；

画训练集的曲线时，横轴为train_sizes, 纵轴为train_scores_mean; train_scores为二维数组,行代表train_sizes不同时的得分，列表示取cv组数据。

画测试集的曲线时：横轴为train_sizes, 纵轴为test_scores_mean; test_scores为二维数组

learning_curve为什么运行时间那么长：模型要进行train_sizes * cv次运行

如何判断？

在这里插入图片描述
欠拟合情况：随着训练样本数增大，训练集得分和验证集得分收敛，并且两者的收敛值很接近。

过拟合情况：随着训练样本数增大，训练集得分和验证集得分相差还是很大。

欠拟合
当训练集和测试集的误差收敛但却很高时，为高偏差。

左上角的偏差很高，训练集和验证集的准确率都很低，很可能是欠拟合。
我们可以增加模型参数，比如，构建更多的特征，减小正则项。
此时通过增加数据量是不起作用的。

过拟合
当训练集和测试集的误差之间有大的差距时，为高方差。

当训练集的准确率比其他独立数据集上的测试结果的准确率要高时，一般都是过拟合。
右上角方差很高，训练集和验证集的准确率相差太多，应该是过拟合。
我们可以增大训练集，降低模型复杂度，增大正则项，或者通过特征选择减少特征数。

理想情况
理想情况是是找到偏差和方差都很小的情况，即收敛且误差较小。

2、L1 和 L2 有什么区别？

在这里插入图片描述

原因：如下图
在这里插入图片描述

3、如何克服过拟合和欠拟合？

在这里插入图片描述

4、如何通过增加惩罚项来提高稀有数据的预测准确率？

通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别，可以设计出许多自然泛化为稀有类别的模型。例如，调整 SVM 以惩罚稀有类别的错误分类。

在这里插入图片描述

八、损失函数

在机器学习中，同一个数据集可能训练出多个模型即多个函数（如下图所示，同样的数据集训练出三种不同的函数）,那么我们在众多函数中该选择哪个函数呢？首选肯定是那个预测能力较好的模型，那么什么样的函数/模型就是预测好的呢？有没有什么评判标准？

损失函数和风险函数

前面说过我们应该首选那个预测能力较好的模型，那么该怎么判断预测能力的好坏呢？模型是用来做预测的，那么好的模型肯定是准确率较高的，也就是预测值和实际值之间的误差较小。

对于任一函数，我们给定一个x，函数都会输出一个f(X)，这个输出的f(X)与真实值Y可能相同，也可能不同。我们用一个函数来度量这两者之间的相同度，这个函数称为损失函数(loss function)，或者叫代价函数(cost function)。损失函数是一次的拟合结果，一次具有偶然性，所以又提出了另外一个概念-风险函数，或者叫期望损失，风险函数是用来度量平均意义下的模型预测能力的好坏。

经验风险与期望风险

模型F(X)关于训练集的平均损失称为经验风险或经验损失（因为训练集是历史数据，是以往的经验的数据，所以称为经验风险），记作Remp。

模型的输入、输出是随机变量，遵循联合概率分布P（X,Y）。期望风险是模型关于联合分布（即P（Y|X））的期望损失。但是联合分布我们又不知道，所以无法求得。这里引用大数定理，当样本容量足够大时，经验风险趋于期望风险，所以可以用经验风险来代替期望风险。

经验风险最小化和结构风险最小化

上面说过经验风险是用来表示整个训练集中所有预测值的预测差距，而经验风险最小化就是表示预测差距最小，而模型好坏的标准也是用预测好坏来评判的，所以我们认为经验风险最小化（预测差距最小）所对应的模型就是最优模型。

当样本容量很小时，经验风险最小化的效果就未必很好，会产生所谓的“过拟合”现象。而结构风险最小化就是为了防止过拟合而提出来的策略。

**结构风险是在经验风险上加上表示模型复杂度的正则化项或罚项，**正则化项有L1正则和L2正则，公式如下：
在这里插入图片描述
上面公式的前半部分是经验风险，后半部分是正则化项，J(f)是用来表示模型的复杂度，λ>=0是正则项系数，用来权衡经验风险和模型复杂度。

所以，监督学习问题就成了经验风险或结构风险函数最优化问题，而这时经验风险函数或结构风险函数就成了目标优化函数（因为有的时候不需要加正则项，这个时候就只需要看经验风险就好）。

1、常见的损失函数

0-1损失函数

0-1损失当预测值与实际值相等时，损失为0，预测值与实际值不相等时，损失为1。
在这里插入图片描述

平方损失函数

平方损失就是线性回归中的残差平方和，常用在回归模型中，表示预测值（回归值）与实际值之间的距离的平方和。
在这里插入图片描述

绝对值损失函数

绝对损失与平方损失类似，也主要用在回归模型中，表示预测值与实际值之间的距离。
在这里插入图片描述

指数损失函数

在这里插入图片描述

对数损失函数

对数损失函数主要用在逻辑回归中，在逻辑回归模型中其实就是预测某个值分别属于正负样本的概率，而且我们希望预测为正样本的概率越高越好。具体模型为P(Y|X),在当前模型的基础上，对于样本X，其预测值为Y，也就是预测正确的概率。由概率乘法公式可得，概率之间可以相乘，为了将其转化为加法，我们将其取对数。最后由于是损失函数，所以预测正确的概率越高，其损失值应该是越小，因此再加个负号取个反。
在这里插入图片描述

Hinge 损失函数

在这里插入图片描述

九、集成学习

基本概念

在这里插入图片描述

（1）集成学习的分类

在这里插入图片描述

（2）随机森林为什么使用决策树作为基分类器

在这里插入图片描述

（3）集成学习算法有哪些？

Boosting类算法
1） AdaBoost
2） GDBT
3） XGBoost

Bagging类算法
随机森林

1、bagging和boosting的区别

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

2、Adaboost和xgboost的区别与联系

Adaboost
Adaboost是模型为加法模型，损失函数为指数函数，学习算法为向前分布算法的二分类学习算法。其基学习器最常见的是决策树桩，也就是深度为1 的决策树。在每一轮提升相应错分类点的权重可以被理解为调整错分类点的observation probability。

xgboost
在AdaBoost发表后不久，Breiman等人发表了Formulate AdaBoost as gradient descent with a special loss function。随后Friedman等人发表了Generalize AdaBoost to Gradient Boosting in order to handle a variety of loss functions。可以说AdaBoost是Gradient Boosting的一个特例或者Gradient Boosting是对AdaBoost进行推广。

Gradient Boosting也是使用多个模型组合在一起构成一个表现比较好的模型。其训练过程是对任意可到目标，反复选择一个指向负梯度方向的函数，因此Gradient Boosting = Gradient Descent + Boosting。

Gradient Boosting也是重复选择一个表现一般的模型并且每次基于先前模型的表现进行调整。不同的是，AdaBoost是通过提升错分数据点的权重来定位模型的不足而Gradient Boosting是通过算梯度（gradient）来定位模型的不足。因此相比AdaBoost, Gradient Boosting可以使用更多种类的目标函数。

用回归树去拟合残差其实就是用回归树去拟合目标方程关于F(xi) 的梯度。

3、Adaboost和GBDT的区别

**AdaBoost:**提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注，于是，分类问题就被一系列的弱分类器“分而治之”。至于第二个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率较大的弱分类器的权值，使其在表决中起较小的作用。

GBDT和其它Boosting算法一样，通过将表现一般的数个模型（通常是深度固定的决策树）组合在一起来集成一个表现较好的模型。抽象地说，模型的训练过程是对一任意可导目标函数的优化过程。通过反复地选择一个指向负梯度方向的函数，该算法可被看做在函数空间里对目标函数进行优化。因此可以说Gradient Boosting = Gradient Descent + Boosting。

4、GBDT和XGBOOST的区别有哪些？

基分类器的选择：传统GBDT以CART作为基分类器，XGBoost还支持线性分类器，这个时候XGBoost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。

二阶泰勒展开：传统GBDT在优化时只用到一阶导数信息，XGBoost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，XGBoost工具支持自定义损失函数，只要函数可一阶和二阶求导。

方差-方差权衡：XGBoost在目标函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出分数的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是XGBoost优于传统GBDT的一个特性。

Shrinkage（缩减）：相当于学习速率（xgboost中的）。XGBoost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）

列抽样（column subsampling）：XGBoost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是XGBoost异于传统GBDT的一个特性。

缺失值处理：XGBoost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率，paper提到50倍。即对于特征的值有缺失的样本，XGBoost可以自动学习出它的分裂方向。

XGBoost工具支持并行：Boosting不是一种串行的结构吗?怎么并行的？注意XGBoost的并行不是tree粒度的并行，XGBoost也是一次迭代完才能进行下一次迭代的（第次迭代的损失函数里包含了前面次迭代的预测值）。XGBoost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），XGBoost在训练之前，预先对数据进行了排序，然后保存为block(块)结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

线程缓冲区存储：按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer（缓冲区），主要是结合多线程、数据压缩、分片的方法，然后再计算，提高算法的效率。

可并行的近似直方图算法：树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。

5、GBDT V.S. LR(Linear Regression? Logistic Regression?)

从决策边界来说，线性回归的决策边界是一条直线，逻辑回归的决策边界是一条曲线，而GBDT的决策边界可能是很多条线。
GBDT并不一定总是好于线性回归或逻辑回归。根据没有免费的午餐原则，没有一个算法是在所有问题上都能好于另一个算法的。根据奥卡姆剃刀原则，如果GBDT和线性回归或逻辑回归在某个问题上表现接近，那么我们应该选择相对比较简单的线性回归或逻辑回归。具体选择哪一个算法还是要根据实际问题来决定。

6、XGB算法梳理

参考

7、LR和xgb的正则化分别是怎么做的呢？

在这里插入图片描述

8、为什么说bagging是减少variance，而boosting是减少bias？

Boosting 则是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行加权，所以随着迭代不断进行，误差会越来越小，所以模型的 bias 会不断降低。

bagging：
在这里插入图片描述

9、为什么利用了二阶导数信息的xgb的效果更好

最终的目标函数只依赖于每个数据点的在误差函数上的一阶导数和二阶导数。这么写的原因很明显，由于之前的目标函数求最优解的过程中只对平方损失函数时候方便求，对于其他的损失函数变得很复杂，通过二阶泰勒展开式的变换，这样求解其他损失函数变得可行了。

10、xgb的预排序算法是怎么做的呢？

预排序算法：对所有特征都按特征的数值进行预排序（特征：排序后的索引），然后在遍历分割点时，使用O(#data)的代价就能找到一个特征上的最佳且分店，将数据切分为左右子节点。

优势：为并行化提供了基础。

XGBoost的并行不不是tree粒度的并行，XGBoost也是⼀次迭代完才能进行下一次迭代的（第t次迭代的损失函数里包含了前面t − 1次迭代的预测值）。XGBoost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），XGBoost在训练之前，预先对数据进行了排序，然后保存为block(块)结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

优化通信代价不同：lgb支持特征并行、数据并行。

14 .在 k-means 或 kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？

我们不用曼哈顿距离，因为它只计算水平或垂直距离，有维度的限制。另一方面，欧式距离可用于任何空间的距离计算问题。因为，数据点可以存在于任何空间，欧氏距离是更可行的选择。例如：想象一下国际象棋棋盘，象或车所做的移动是由曼哈顿距离计算的，因为它们是在各自的水平和垂直方向的运动。

15 .一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。你来降低该数据集的维度以减少模型计算时间。你的机器内存有限，你会怎么做？（你可以自由做各种实际操作假设）

1.由于我们的 RAM 很小，首先要关闭机器上正在运行的其他程序，包括网页浏览器，以确保大部分内存可以使用。

2.我们可以随机采样数据集。这意味着，我们可以创建一个较小的数据集，比如有 1000 个变量和 30 万行，然后做计算。

3.为了降低维度，我们可以把数值变量和分类变量分开，同时删掉相关联的变量。对于数值变量，我们将使用相关性分析。对于分类变量，我们可以用卡方检验。

4.另外我们还可以使用 PCA（主成分分析），并挑选可以解释在数据集中有最大偏差的成分。

5.利用在线学习算法，如 VowpalWabbit（在 Python 中可用）是一个可能的选择。

6.利用 Stochastic GradientDescent（随机梯度下降）法建立线性模型也很有帮助。

7.我们也可以用我们对业务的理解来估计各预测变量对响应变量的影响大小。但是，这是一个主观的方法，如果没有找出有用的预测变量可能会导致信息的显著丢失。

注意：对于第 4 点和第 5 点，请务必阅读有关在线学习算法和随机梯度下降法的内容。这些是高阶方法。

16. KNN 中的 K 是如何选取的？

1.如果选择较小的 K 值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K 值的减小就意味着整体模型变得复杂，容易发生过拟合；

2.如果选择较大的 K 值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且 K 值的增大就意味着整体的模型变得简单。

3.K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K 值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择最优的 K 值。

十、分类算法

1、逻辑回归

参考

2、决策树

参考

3、SVM

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

面试问题集合

问题：SVM的优缺点
1）优点：

a. 能应用于非线性可分的情况

b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难

c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本

d. 高维低样本下性能好，如文本分类

2）缺点：

a. 模型训练复杂度高

b. 难以适应多分类问题

c. 核函数选择没有较好的方法论

4、KNN算法

（1）概念

KNN（K Near Neighbor）：k个最近的邻居，即每个样本都可以用它最接近的k个邻居来代表。
在这里插入图片描述
最近邻 (k-Nearest Neighbors， KNN) 算法是一种分类算法， 1968年由 Cover和 Hart 提出，应用场景有字符识别、文本分类、图像识别等领域。

该算法的思想是：一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。

（2）距离度量

在这里插入图片描述

（3）算法流程

在这里插入图片描述

（4）优缺点

在这里插入图片描述

（5）K值的选择

在这里插入图片描述

聚类算法

1、聚类算法分类

总体上分为：传统聚类+基于深度学习的聚类（深度聚类）

传统聚类

1.基于划分
给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。
特点：计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。
算法：K-MEANS算法、K-MEDOIDS算法、CLARANS算法

2.基于层次
对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。
特点：较小的计算开销。然而这种技术不能更正错误的决定。
算法：BIRCH算法、CURE算法、CHAMELEON算法

3.基于密度
只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。
特点：能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
算法：DBSCAN算法、OPTICS算法、DENCLUE算法

4.基于网格
将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。
特点：处理速度很快，通常这是与目标数据库中记录的个数无关的，只与把数据空间分为多少个单元有关。
算法：STING算法、CLIQUE算法、WAVE-CLUSTER算法

5.基于模型
属于软聚类（每个样本可以属于多个类，有概率分布）GMM认为隐含的类别标签z(i)，服从多项分布，并且认为给定z(i)后，样本x(i)满足多值高斯分布，，由此可以得到联合分布。

GMM是个鸡生蛋、蛋生鸡的过程，与KMEANS特别像，其估计应用EM算法。

1.首先假设知道GMM参数，均值、协方差矩阵、混合系数，基于这些参数算出样本属于某一类的概率（后验概率）wji：

2.然后根据该概率，重新计算GMM的各参数。此参数求解利用了最大似然估计。

3.一直迭代，直到参数稳定。

EM（Expectation Maximization）算法是，假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

混合高斯模型，实质上就是一个类别一个模型。先从k个类别中按多项式分布抽取一个z(i)，然后根据z(i)所对应的k个多值高斯分布中的一个生成样本x(i)，整个过程称作混合高斯模型。

GMM优点：可理解、速度快

劣势：初始化敏感、需要手工指定k（高斯分布）的个数、不适合非凸分布数据集（基于密度的聚类和核方法可以处理）

Kmeans可以看做混合高斯聚类在混合成分方差相等、且每个样本派给一个混合成分时的特例。

6.基于图论
谱聚类就是基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据的聚类。

第i个样本和第j个样本度量相似高斯相似度，其中delta是超参数，svm里面也用到过这个核函数
形成相似度矩阵W=(Sij)n*n，对称矩阵，其中sii本来应该等于1，但为了方便计算都写成0，所以相似度矩阵就变长了主对角线上都为0的对称阵。
计算第i个样本到其他所有样本的相似度的和di = si1+Si2+…Sin（这里关于Si的相加，有些比如要聚成K类的就只会使用前K个si相加，或者设定一个阈值，小于阈值的si都舍去），在图论中，di叫做度，可以理解为连接边的权值。将所有点的度di，构成度矩阵D（对角阵）
形成拉普拉斯矩阵L=D-W，L是对称半正定矩阵，最小特征值是0，相应的特征向量是全1向量。把L的特征值从小到大排列，λ1…λn，对应特征向量u1 u2…un，如果我们要求聚成K类，我们就取前K个特征值对应的特征向量，形成矩阵Un*k，这样我们认为对应第一个样本的特征就是u11,u12…u1k，第二个样本的特征就是u21,u22…u2k，第n个样本的特征就是un1,un2…unn，对这n个样本做K均值，最后对这n个样本的聚类结果是什么，我们原始的聚类结果就是什么。

优点：可以发现非球形的样本

缺点：也要事先给定K值

深度聚类

典型的深度聚类算法可以总结为下述的四大类:

基于自动编码器(AE)的深度聚类算法

基于聚类深度神经网络(CDNN)的深度聚类算法

基于变分自动编码器(VAE)的深度聚类算法

基于生成对抗网络(GAN)的深度聚类算法

2、常见聚类算法

K-Means(K均值)聚类

算法步骤：
(1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
(2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。
(3) 计算每一类中中心点作为新的中心点。
(4) 重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。

基于密度的聚类方法(DBSCAN)

优点：
速度快，计算简便
缺点：
我们必须提前知道数据有多少类/组。
K-Medians是K-Means的一种变体，是用数据集的中位数而不是均值来计算数据的中心点。
K-Medians的优势是使用中位数来计算中心点不受异常值的影响；缺点是计算中位数时需要对数据集中的数据进行排序，速度相对于K-Means较慢。

与均值漂移聚类类似，DBSCAN也是基于密度的聚类算法。
具体步骤：

首先确定半径r和minPoints. 从一个没有被访问过的任意数据点开始，以这个点为中心，r为半径的圆内包含的点的数量是否大于或等于minPoints，如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。
重复1的步骤，如果一个noise point存在于某个central point为半径的圆内，则这个点被标记为边缘点，反之仍为noise point。重复步骤1，知道所有的点都被访问过。
优点：不需要知道簇的数量
缺点：需要确定距离r和minPoints

用高斯混合模型（GMM）的最大期望（EM）聚类

K-Means的缺点在于对聚类中心均值的简单使用。下面的图中的两个圆如果使用K-Means则不能作出正确的类的判断。同样的，如果数据集中的点类似下图中曲线的情况也是不能正确分类的。

使用高斯混合模型（GMM）做聚类首先假设数据点是呈高斯分布的，相对应K-Means假设数据点是圆形的，高斯分布（椭圆形）给出了更多的可能性。我们有两个参数来描述簇的形状：均值和标准差。所以这些簇可以采取任何形状的椭圆形，因为在x，y方向上都有标准差。因此，每个高斯分布被分配给单个簇。

具体步骤：

选择簇的数量（与K-Means类似）并随机初始化每个簇的高斯分布参数（均值和方差）。也可以先观察数据给出一个相对精确的均值和方差。
给定每个簇的高斯分布，计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。
基于这些概率我们计算高斯分布参数使得数据点的概率最大化，可以使用数据点概率的加权来计算这些新的参数，权重就是数据点属于该簇的概率。
重复迭代2和3直到在迭代中的变化不大。
GMMs的优点：（1）GMMs使用均值和标准差，簇可以呈现出椭圆形而不是仅仅限制于圆形。K-Means是GMMs的一个特殊情况，是方差在所有维度上都接近于0时簇就会呈现出圆形。
（2）GMMs是使用概率，所有一个数据点可以属于多个簇。例如数据点X可以有百分之20的概率属于A簇，百分之80的概率属于B簇。也就是说GMMs可以支持混合资格。

凝聚层次聚类

层次聚类算法分为两类：自上而下和自下而上。凝聚层级聚类(HAC)是自下而上的一种聚类算法。HAC首先将每个数据点视为一个单一的簇，然后计算所有簇之间的距离来合并簇，直到所有的簇聚合成为一个簇为止。

具体步骤：

首先我们将每个数据点视为一个单一的簇，然后选择一个测量两个簇之间距离的度量标准。例如我们使用average linkage作为标准，它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。
在每次迭代中，我们将两个具有最小average linkage的簇合并成为一个簇。
重复步骤2知道所有的数据点合并成一个簇，然后选择我们需要多少个簇。

层次聚类
优点：
（1）不需要知道有多少个簇
（2）对于距离度量标准的选择并不敏感
缺点：效率低

3、聚类评估指标

外部度量（知道类簇label）

有监督的方法，需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。

ACC
在这里插入图片描述
Jaccard系数（Jaccard Coefficient, JC）

在这里插入图片描述

FM指数（Fowlkes and Mallows Index, FMI）

在这里插入图片描述

Rand指数（Rand Index, RI）
在这里插入图片描述

 (  a+b+c+d=m(m-1)/2  )

上述性能度量的结果值均在[0,1]区间，值越大越好。

内部度量（在真实的类簇label不知道的情况）

CH指标
在这里插入图片描述
轮廓系数

深度聚类评估指标

参考

4、详解常见聚类算法

（1）DBSCAN

概念

1个核心思想：基于密度。
直观效果上看，DBSCAN算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的聚类簇。
在这里插入图片描述
2个算法参数：邻域半径R和最少点数目minpoints。
这两个算法参数实际可以刻画什么叫密集——当邻域半径R内的点的个数大于最少点数目minpoints时，就是密集。

在这里插入图片描述
3种点的类别：核心点，边界点和噪声点。
邻域半径R内样本点的数量大于等于minpoints的点叫做核心点。不属于核心点但在某个核心点的邻域内的点叫做边界点。既不是核心点也不是边界点的是噪声点。

在这里插入图片描述
4种点的关系：密度直达，密度可达，密度相连，非密度相连。
如果P为核心点，Q在P的R邻域内，那么称P到Q密度直达。任何核心点到其自身密度直达，密度直达不具有对称性，如果P到Q密度直达，那么Q到P不一定密度直达。

如果存在核心点P2，P3，……，Pn，且P1到P2密度直达，P2到P3密度直达，……，P(n-1)到Pn密度直达，Pn到Q密度直达，则P1到Q密度可达。密度可达也不具有对称性。

如果存在核心点S，使得S到P和Q都密度可达，则P和Q密度相连。密度相连具有对称性，如果P和Q密度相连，那么Q和P也一定密度相连。密度相连的两个点属于同一个聚类簇。

如果两个点不属于密度相连关系，则两个点非密度相连。非密度相连的两个点属于不同的聚类簇，或者其中存在噪声点。
在这里插入图片描述

DBSCAN算法步骤

DBSCAN的算法步骤分成两步。
1，寻找核心点形成临时聚类簇。
扫描全部样本点，如果某个样本点R半径范围内点数目>=MinPoints，则将其纳入核心点列表，并将其密度直达的点形成对应的临时聚类簇。

2，合并临时聚类簇得到聚类簇。
对于每一个临时聚类簇，检查其中的点是否为核心点，如果是，将该点对应的临时聚类簇和当前临时聚类簇合并，得到新的临时聚类簇。
重复此操作，直到当前临时聚类簇中的每一个点要么不在核心点列表，要么其密度直达的点都已经在该临时聚类簇，该临时聚类簇升级成为聚类簇。
继续对剩余的临时聚类簇进行相同的合并操作，直到全部临时聚类簇被处理。
在这里插入图片描述

（2）k-means

场景描述
在这里插入图片描述

知识点
K 均值聚类算法，ISODATA 算法， EM 算法( Expectation-Maximization Algorithm ，最大期望算法)

问题：简述K均值算法的具体步骤

分析与解答
在这里插入图片描述

在这里插入图片描述
图 5.2 是 K-means 算法的一个迭代过程示意图。首先，给定二维空间上的一些样本点(见国 5.2 (a) ) , 直观上上这些点可以被分成两类，接下来，初始化两个中心点(圄 5.2( b)的棕色和黄色叉子代表中心点)，并根据中心点的位置计算每个样本所属的簇(圄 5.2 ( c )用不同颜色表示)，然后根据每个簇中的所有点的平均值计算新的中心点位置( 见圄 5.2(d ))，图 5.2 (e)和图 5.2 (f) 展示了新轮的迭代结果，在经过两轮的迭代之后，算法基本收敛。

问题：K 均值算法的优缺点是什么？如何对其进行调优？

分析与解答
优缺点
在这里插入图片描述

算法调优
在这里插入图片描述

在这里插入图片描述

问题：针对K 均值算法的缺点有哪些改进模型?

分析与解答

K均值算法的主要缺点
在这里插入图片描述
K -means++算法

ISODATA算法
在这里插入图片描述

问题：证明K均值算法的收敛性

分析与解答
在这里插入图片描述

深度学习

1、在图像处理中为什么要使用卷积神经网络而不是全连接网络？

首先，**卷积过程是考虑到图像的局部特征，能够更加准确的抽取空间特征。**如果使用全连接的话，我们可能会考虑到很多不相关的信息。其次，CNN有平移不变性，因为权值共享，图像平移了，卷积核还是可以识别出来，但是全连接则做不到。

2、什么是batch normalization，原理是什么？

Batch Normalization就是在训练过程，每一层输入加一个标准化处理。

深度神经网络之所以复杂有一个原因就是由于在训练的过程中上一层参数的更新使得每一层的输入一直在改变。所以有个办法就是去标准化每一层的输入。具体归一化的方式如下图，如果只将归一化的结果进行下一层的输入，这样可能会影响到本层学习的特征，因为可能该层学习到的特征分布可能并不是正态分布的，这样强制变成正态分布会有一定影响，所以还需要乘上γ和β，这两个参数是在训练过程学习的，这样可以保留学习到的特征。

关注

10
点赞
踩
93

收藏

觉得还不错? 一键收藏
3
评论
算法面试必备-----数据挖掘常见面试题

算法面试必备-----数据挖掘常见面试题算法面试必备-----数据挖掘常见面试题1. 异常值是指什么?请列举1种识别连续型变量异常值的方法?2. 什么是数据标准化，为什么要进行数据标准化？3. 如何处理缺失值数据？4. 如何进行探索性数据分析(EDA)？5. 给定一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？6. 对于不平衡数据集，有什么应对方案？7. 什么是 K-fold 交叉验证？8. 简述准确率(accuracy)、召回率(R
复制链接

扫一扫

专栏目录