聚类分析
文章平均质量分 97
xia ge tou lia
致力于数据分析行业~
展开
-
多元统计分析——聚类分析——鸢尾花数据集在K-均值、层次、DBSCAN上的比较
鸢尾花数据集是非常经典的数据集,常被用来数据挖掘初学者进行数据探索,本文基于鸢尾花数据集分别进行K-均值聚类、层次聚类、DBSCAN(密度聚类),比较这三类算法的区别。一、K-均值聚类关于K-均值聚类算法的详细介绍可见《多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)》。二、层次聚类关于层次聚类算法的详细介绍可见《多元统计分析——聚类分析——层次聚类》。三、DBSCAN(密度聚类)关于DBSCAN(密度聚类)聚类算法的详细介绍可见《多元统计分析——聚类分析——DBSCA原创 2020-08-23 15:57:41 · 6030 阅读 · 0 评论 -
多元统计分析——聚类分析——K-均值聚类应用场景
在《多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)》当中,我们理解了K-均值聚类的原理,也简单的介绍了K-均值聚类的两个应用场景:发现异常情况:如果不对数据进行任何形式的转换,只是经过中心标准化或级差标准化就进行快速聚类,会根据数据分布特征得到聚类结果。这种聚类会将极端数据单独聚为几类。这种方法适用于统计分析之前的异常值剔除,对异常行为的挖掘,比如监控银行账户是否有洗钱行为、监控POS机是有从事套现、监控某个终端是否是电话卡养卡客户等等。 将个案数据做划分:出于客户细分目的的聚类分析一原创 2020-08-16 21:40:12 · 6087 阅读 · 0 评论 -
多元统计分析——聚类分析——DBSCAN(基于密度的聚类)
聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分。 该方法可以得到较理想的分类 难以处理大量样本 基于划分的聚类 大样本数据 K-means算法 是解决聚类问题的一种经典算法,简单、快速,复杂度为O(N) 对处理大数据集,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 .原创 2020-08-23 00:13:54 · 6401 阅读 · 0 评论 -
多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)
聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分。 该方法可以得到较理想的分类 难以处理大量样本 基于划分的聚类 大样本数据 K-means算法 是解决聚类问题的一种经典算法,简单、快速,复杂度为O(N) 对处理大数据集,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 .原创 2020-07-01 19:03:20 · 19802 阅读 · 3 评论 -
多元统计分析——聚类分析——层次聚类
聚类方法 适用场景 代表算法 优点 缺陷 延伸 层次聚类 小样本数据 - 可以形成类相似度层次图谱,便于直观的确定类之间的划分。 该方法可以得到较理想的分类 难以处理大量样本 基于划分的聚类 大样本数据 K-means算法 是解决聚类问题的一种经典算法,简单、快速,复杂度为O(N) 对处理大数据集,该算法保持可伸缩性和高效率 当簇近似为高斯分布时,它的效果较好 .原创 2020-06-30 12:31:52 · 32978 阅读 · 9 评论