一文读懂如何对混合型数据做聚类分析!

本文通过R语言探讨混合型数据的聚类分析,介绍了Gower距离、PAM(围绕medoids进行分割)聚类算法和如何选择最佳集群数。并使用银行营销数据集展示应用,揭示了数据科学家如何处理无监督学习中的复杂数据类型。
摘要由CSDN通过智能技术生成

总的来说,对无监督数据进行聚类并非易事。现如今的数据处理和探索无法准确的测量数据。这也意味着我们对数据的处理和探索变得愈发困难。

此外,关于在无监督学习的入门课程中,对拿来讨论的理想的案例,k-means教程,也只适用于数值特性。

一文读懂如何对混合型数据做聚类分析!


在这篇文章中,作者将通过R语言进行非监督分类训练。

  • 第一部分包括方法论:作者正在讨论使用距离的数学概念来衡量个体间相似性的问题。然后介绍了PAM集群算法(围绕medoids进行分割)以及选择最佳集群数(轮廓系数)的方法。

  • 在第二部分中,作者将使用uci机器学习数据库中提供的银行营销数据集和Rtsne软件包中的一些函数来说明该方法。该数据集与葡萄牙某银行机构的电话营销活动相关。我们会把这些数据用于对监督学习情况的讨论。

第一部分:方法论

如何测量相似性

一文读懂如何对混合型数据做聚类分析!


(数据科学家作用在于在对未知数据进行集群时,我们不能盲人摸象,只看到事物的一面。他们主张与数据产生一定的"距离",以便更全面地了解它们。)

距离是对个体之间相隔多远的数值度量,也就是说,用于测量个体之间的接近度或相似度的度量。面对众多的度量,作者必须要介绍的是 Gower distance  (1971)。

Gower距离被用于计算个体之间部分差异的平均值。(Gower距离的范围为[0 1]。)

一文读懂如何对混合型数据做聚类分析!


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值