独家 | 层级聚类和Python实现的初学者指南(附链接)

作者:Pulkit Sharma

翻译:陈超

校对:吴振东

本文约4700字,建议阅读15分钟

本文从对比无监督学习和监督学习的特征切入,结合具体的案例来给大家介绍层级聚类的概念、应用场景、主要类型以及Python实现。

引言

理解顾客行为在任何工业领域都是至关重要的,直到去年我才意识到这个问题。当时我的CMO(chief marketing officer,首席营销官)问我:“你能告诉我,我们新产品的目标用户应该是什么群体呢?”

这对我来说是一个学习的过程。我很快意识到,作为一个数据科学家,将顾客细分以便于公司能够进行客户定制并建立目标策略有多重要。这就聚类概念能派上用场的地方!

用户分类通常很棘手,因为我们脑海当中并没有任何目标变量。我们现在正式踏入了无监督学习的领域,在没有任何设定结果的情况下来发掘模式和结构。这对数据科学家来说是充满挑战但却是让人激动的事。

在这里有几种不同的聚类方法(你会在下面的部分看到)。我将向你介绍其中一种——层级聚类。

我们将会学习层级聚类是什么,它优于其他聚类算法的地方,不同层级聚类的方式以及开展的步骤。我们在最后会采用一个顾客分类数据库并实现Python的层级聚类。我喜欢这个方法并且十分确定在你读完本文之后也会喜欢上的!

注释:如上所述,聚类的方法很多。我鼓励你查看我们对不同类型聚类所做的指南:

  • An Introduction to Clustering and different methods of clustering

https://www.analyticsvidhya.com/blog/2016/11/an-introduction-to-clustering-and-different-methods-of-clustering/utm_source=blog&utm_medium=beginners-guide-hierarchical-clustering

想要学习更多关于聚类的内容和其他机器学习算法(监督和无监督)可以看看下面这个项目-

https://courses.analyticsvidhya.com/bundles/certified-ai-ml-blackbelt-plus?utm_source=blog&utm_medium=beginners-guide-hierarchical-clustering

目录

1. 监督vs 无监督学习

2. 为什么要用层级聚类?

3. 什么是层级聚类?

4. 层级聚类的类型

(1) 聚合式(Agglomerative)层级聚类

(2) 分裂式(Divisive)层级聚类

5. 层级聚类的步骤

6. 在层级聚类中如何选择类的数量?

7. 利用层级聚类解决一个批发顾客分类问题

监督vs无监督学习

在我们深入学习层级聚类之前,理解监督学习和无监督学习之间的差异是十分重要的。让我用一个简单的例子来解释这种差异。

假设我想要估计每天将被租借的自行车数量:

或者,我们想预测在泰坦尼克号上一个人是否生还:

在这两个例子当中都有一个固定的目标要实现:

  • 在第一个例子当中,要基于像季节、假期、工作日、天气、温度等特征来预测自行车租用数量。

  • 在第二个例子中要预测乘客是否会生还。在“生还”变量中,0代表这个人未生还,1代表这个人活了下来。这里的自变量包括客舱等级、性别、年龄、票价等等。

所以说,当我们有目标变量的时候(在上述两个例子当中的数量和生还),基于一系列预测变量或者自变量(季节,假期,性别,年龄等)来预测,这种问题叫做监督学习问题。

让我们看看下面的图以便更好地理解它:

在这里,y是因变量或者叫目标变量,X代表自变量。目标变量依赖于X,因此它也被叫做一个因变量。我们在目标变量的监督下使用自变量来训练模型,因而叫做监督学习。

我们在训练模型时的目标是生成一个函数,能够将自变量映射到期望目标。一旦模型训练完成,我们可以把新的观测值放进去,模型就可以自己来预测目标。总而言之,这个过程就叫做监督学习。

有时候我们并没有任何需要预测的目标变量。这种问题没有任何外显的目标变量,被叫做无监督学习。我们仅有自变量。

我们试图将全部数据划分成一系列的组。这些组被叫做簇,这个过程叫做聚类。

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值