聚类dbi指数_无监督聚类算法实践I

最新推荐文章于 2022-12-17 09:49:04 发布

何为浮云

最新推荐文章于 2022-12-17 09:49:04 发布

阅读量573

点赞数

文章标签：聚类dbi指数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42349126/article/details/112379871

版权

本文介绍了无监督学习中的聚类算法，以电商购物记录为例，阐述了聚类在用户分析中的应用。文章讲解了距离度量（如闵可夫斯基距离、VDM距离）、归一化/标准化、性能度量（外部指标与内部指标，特别是DBI指数）等概念，并提及PCA主成分分析在降维中的作用。内容深入浅出，旨在使聚类算法变得直观易懂。

摘要由CSDN通过智能技术生成

注：本文中的例子与数据均为杜撰，并为了说明问题做了简化，请勿对号入座

另：为了降低理解成本，本文尽量以直观的方法呈现，略去复杂公式推导，让聚类算法变成一个很直观的、开箱即用的工具。

1. 前言

物以类聚，人以群分。把这句流传了两千年的古语用机器学习的话术来表达，即是：具有相同或相似特征的对象，可以聚成一个群体。有了群体之后，就可以分析其共性特征与行为的关系。

以电商的购物记录为例。考察25-30岁的女性用户在双十一期间的消费类型，随机选取50w人，经计算，这50w人可以分为4类:

40%的人以衣服鞋帽为主
20%的人以化妆品为主
10%的人以电子产品为主
另外30%的人没有明显特征

那么在制定明年双十一广告策略时，就可以针对每一类人分别推荐。在计算之前并不知道这50w人可以分成哪几个类别，属于无监督学习。本文即将讲述的是无监督学习的聚类算法实践。

2. 基本概念

如果你要对二维平面上的点进行分类，如下图所示，显然可以把红色点和蓝色点各分为一类。

但是A点分到哪一类更"适合"呢。

该如何衡量分类效果的好坏呢？本节介绍常用的距离度量和性能度量方法。

2.1 距离度量

给定

维空间上的三个点

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。