聚类分析算法

最新推荐文章于 2024-06-30 09:24:04 发布

喜欢打酱油的老鸟

最新推荐文章于 2024-06-30 09:24:04 发布

阅读量2.7k

点赞数

文章标签：聚类分析

人工智能专栏收录该内容

4209 篇文章 347 订阅

订阅专栏

https://www.toutiao.com/a6674204905399386632/

聚类分析算法

聚类分析的典型应用场景

目标用户的群体分类
不同产品的价值组合
探测、发现孤立点、异常值

主要聚类算法的分类

聚类分析算法

聚类分析应用注意事项

1.噪声和异常值的处理

直接删除那些比其他任何数据点都要远离聚类中心点的异常值
随机抽样

2.数据标准化

参与聚类的变量绝大多数都是区间型变量，不同区间型变量之间的数量单位不同，如果不加处理直接进行聚类，很容易造成聚类结果的失真。

数据标准化不仅可以为聚类计算中的各个属性赋予相同的权重，还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异

标准差标准化，经过这种方法处理后的数据符合标准正态分布，即均值为0，标准差为1。（μ为所有样本数据的均值，σ为所有样本数据的标准差）

聚类分析算法

3.聚类变量的少而精

紧紧围绕具体分析目的和业务需求挑选聚类变量
通过相关性检测，可防止相关性高的变量同时进入聚类计算
衍生变量
主成分分析，作为一种常用的降维方法，可以在聚类之前进行数据的清理，精简变量的数量

聚类分析的拓展应用

聚类的核心指标与非聚类的业务指标相辅相成
数据的探索和清理工具
个性化推荐的应用

聚类分析的优势和缺点

优势

聚类技术已经比较成熟，算法也比较可靠
聚类技术不仅本身是一种模型技术，可以直接响应业务需求，提出细分的具体方案来指导实践
聚类的结果比较容易用商业和业务的逻辑来理解和解释
K-Means算法具有简洁、高效的特点
K-Means算法是一个不依赖顺序的算法

缺点

数据分析师需要事先指定聚类的数目k
算法对数据噪声和异常值比较敏感

聚类分析结果的评估

1.业务专家的评估

2.聚类技术上的评价指标

RMSSTD：群体中所有变量的综合标准差，RMSSTD越小表明群体内（簇内）个体对象的相似程度越高，聚类效果越好。

R-Square：聚类后群体间差异的大小，也就是聚类结果可以在多大比例上解释原数据的方差，R-Square越大表明群体间（簇间）的相异性越高，聚类效果就越好。

SPR：该指标适用于层次方法中的凝聚层次聚类算法，它表示当原来两个群体合并成新群体的时候，其所损失的群内相似性的比例。一般来说，SPR越小，表明合并成新的群体时，损失的群内相似性比例越小，新群体内的相似性越高，聚类效果就越好。

Distance Between Clusters：该指标适用于层次方法中的凝聚层次聚类算法，它表示在要合并两个细分群体（簇）时，分别计算两个群体的中心，以求得两个群体的距离。一般来说，距离越小说明两个群体越适合合并成一个新群体。

喜欢打酱油的老鸟

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。