机器学习（2）

最新推荐文章于 2024-07-10 14:32:33 发布

Techer_Y

最新推荐文章于 2024-07-10 14:32:33 发布

阅读量100

点赞数

文章标签：机器学习聚类 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46369161/article/details/129850122

版权

监督学习和无监督学习

监督学习：在一个典型的监督学习中，训练集有标签y，我们的目标是找到能够区分正样本和负样本的决策边界，据此拟合一个假设函数。

无监督学习：没有标签y

无监督学习方法：聚类、降维（高维空间数据点映射到低维空间中）、关联规则、推荐系统

聚类：K-means、密度聚类、层次聚类

应用：市场细分、文档聚类、图像分割、图像压缩、聚类分析、保险欺诈检测、公共交通数据分析、客户细分、识别癌症数据

聚类：把数据分成三个分开的点集（簇），一个能够分出这些点集的算法，即为聚类算法。

K-means：

该算法具有一个迭代的过程，在这个过程中，数据集被分组成若干个预定义的不重叠的聚类或子组，使簇的内部点尽可能相似，同时试图保持簇在不同的空间，它将数据点分配给簇，以便簇的质心和数据点之间的平方距离之和最小。簇的质心是这个簇的算术平均值。

算法流程：

选K个点作为初始质心
将每个点指派到最近的质心，形成K个簇
对于上一步聚类的结果，进行平均计算，得出该簇的新的聚类中心
重复以上两步，直到质心不再发生变化

K值的选择：找到簇的数量，通过“肘部法则”进行计算，找到肘点。

K-means缺点：需要预先指定簇的数量；如果有两个高度重叠的数据，可能就不能被区分；欧几里德这些不平等的权重因素，限制了能处理数据变量的类型；无法处理异常值和噪声数据；不适用于非线性数据集。

密度聚类DBSCAN： Density-Based Spatial Clustering of Applications with Noise

将数据分为三类：核心点、边界点、噪音点

从某个选定的核心点出发，不断向密度可达的区域扩张，从而得到一个包含核心点和边界点的最大化区域，区域中任意两点密度相连。

层次聚类、分裂聚类

聚类的评价指标：均一性、完整性、V-measure、轮廓系数（簇内不相似度尽可能小，簇间不相似度尽可能大）调整兰德系数（ARI）取值范围为-1到1，值越大越吻合。

监督学习

最主要的类型：分类问题：离散的

二分类：分成两类

多分类：分成多类

Sigmoid函数：y的范围在0-1之间

贝叶斯公式：朴素贝叶斯是典型的生成学习方法。朴素贝叶斯法的基本假设是条件独立性

KNN算法：

距离度量：曼哈顿距离，切比雪夫距离、闵可夫斯基距离、汉明距离、余弦相似度

决策树原理：

决策树：从训练数据中学习得出一个树状结构的模型，属于判别模型。监督学习

决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择分支，达到最终的叶子节点。

决策树归纳的基本算法是贪心算法，自顶向下来构建决策树。

缺点：容易造成过拟合，需要采用剪枝操作；忽略了数据之间的相关性。

三种基本类型：建立决策树的关键，即在当下状态下选择哪个属性作为分类依据。根据不同的目标函数，建立决策树主要有以下三种算法：ID3、C4.5、CART。

ID3算法：

“信息熵”，期望信息越小，信息熵越大，样本纯度越低。以信息论为基础，以信息增益作为衡量标准。

初始化特征集合和数据集合；
计算数据集合信息熵和所有特征的条件熵，选择信息增益最多大的特征作为当前决策节点；
更新数据集合和特征集合；
重复2、3步，若子集值包含单一特征，则分支为叶子节点；

C4.5：

算法是用于生成决策树的一种经典算法，是ID3算法的一种延伸和优化。

用信息增益率来选择划分特征，克服了用信息增益选择的不足，但信息增益率对可取值数目较少的属性有所偏好；
能够处理离散型和连续型的属性类型，即将连续型的属性进行离散化处理；
能够处理具有缺失属性值的训练数据；
在构造树的过程中进行剪枝；

为了防止过拟合，采取剪枝策略：在节点划分前来确定是否继续增长，及时停止增长。分为预剪枝和后剪枝，后剪枝导致的欠拟合风险更小。

采用的悲观剪枝方法。

缺点：只能用于分类，不能用于回归；用的是多叉树。二叉树其实效率更高。有大量耗时的对数运算、连续值和排序运算。

CART：

用基尼指数来做分类，用均方差做回归。是二叉树。

对连续特征值和离散特征值的处理方法不同。

CART算法会多次参与节点的建立，ID3和C4.5。

具体流程：

计算每一个节点的条件熵
递归的从叶子节点开始往上遍历，减掉叶子节点，然后判断损失函数的值是否减少，如果减少，则将父节点作为新的叶子节点。
重复2，直到完全不能剪枝

样本数据的差异：ID3只能处理离散数据且缺失值敏感，C4.5和CART可以处理连续性数据且有多种方式处理缺失值；从样本量考虑的话，小样本建议C4.5，大样本建议CART。C4.5处理过程中需对数据集进行多次扫描排序，处理成本耗时较高，CART本身是一种大样本的统计方法，小样本处理下泛化误差较大。

样本特征差异：ID3和C4.5只使用一次特征，CART可多次重复使用特征。

支持向量机：

找到集合边缘上的若干数据（称为支持向量），用这些点找出一个平面，使得支持向量到该平面的距离最大。

核函数：低维映射到高维，由线性不可分变为线性可分。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（2）

监督学习和无监督学习监督学习：在一个典型的监督学习中，训练集有标签y，我们的目标是找到能够区分正样本和负样本的决策边界，据此拟合一个假设函数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。