聚类dbi指数_无监督聚类算法实践I

本文介绍了无监督学习中的聚类算法,以电商购物记录为例,阐述了聚类在用户分析中的应用。文章讲解了距离度量(如闵可夫斯基距离、VDM距离)、归一化/标准化、性能度量(外部指标与内部指标,特别是DBI指数)等概念,并提及PCA主成分分析在降维中的作用。内容深入浅出,旨在使聚类算法变得直观易懂。
摘要由CSDN通过智能技术生成

77cfc3df9ca4d7040a134162f62be1ac.png

注:本文中的例子与数据均为杜撰,并为了说明问题做了简化,请勿对号入座

另:为了降低理解成本,本文尽量以直观的方法呈现,略去复杂公式推导,让聚类算法变成一个很直观的、开箱即用的工具。

1. 前言

物以类聚,人以群分。把这句流传了两千年的古语用机器学习的话术来表达,即是:具有相同或相似特征的对象,可以聚成一个群体。有了群体之后,就可以分析其共性特征与行为的关系。

以电商的购物记录为例。考察25-30岁的女性用户在双十一期间的消费类型,随机选取50w人,经计算,这50w人可以分为4类:

  • 40%的人以衣服鞋帽为主
  • 20%的人以化妆品为主
  • 10%的人以电子产品为主
  • 另外30%的人没有明显特征

那么在制定明年双十一广告策略时,就可以针对每一类人分别推荐。在计算之前并不知道这50w人可以分成哪几个类别,属于无监督学习。本文即将讲述的是无监督学习的聚类算法实践。

2. 基本概念

如果你要对二维平面上的点进行分类,如下图所示,显然可以把红色点和蓝色点各分为一类。

60deb7b9cc6b2191a931f152b8a2c0da.png

但是A点分到哪一类更"适合"呢。

dcc5e2e19076e25229551475822c5592.png

该如何衡量分类效果的好坏呢?本节介绍常用的距离度量和性能度量方法。

2.1 距离度量

给定

维空间上的三个点
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值