聚类分析完整指南:k-均值和层次聚类(演算与程序) (一)

What is clustering analysis?# We create the points in Ra <- c(0, 0)b <- c(1, 0)c <- c(5, 5)X <- rbind(a, b, c) # a, b and c are combined per rowcolnames(X) <- c("x", "y") # rename columnsX # display the points
摘要由CSDN通过智能技术生成

什么是聚类分析?


聚类分析是探索性数据分析的一种形式,在这种分析中,观测数据被分成具有共同特征的不同组。

聚类分析(也称为分类)的目的是构造群(或类或群),同时确保以下性质:在一个群中观测值必须尽可能相似,而属于不同群的观测值必须尽可能不同

主要有两种分类:

  1. K-means clustering
  2. Hierarchical clustering

第一种方法通常在预先确定类的数量时使用,而第二种方法通常用于未知数量的类,并帮助确定最佳数量。这两种方法在下面通过演算和R程序中的应用进行了说明。注意,对于层次聚类,本文只介绍了升序分类。

聚类算法利用距离将观测数据分成不同的组。因此,在深入介绍这两种分类方法之前,将介绍如何计算点之间距离的演算。

Application 1: Computing distances

存在一个数据集,包含点 a = ( 0 , 0 ) ′ , b = ( 1 , 0 ) ′ a = (0,0)', b=(1,0)' a=(0,0),b=(1,0) c = ( 5 , 5 ) ′ c=(5,5)' c=(5,5). 计算点间欧式距离矩阵(matrix of Euclidean distances)。

Solution

# We create the points in R
a <- c(0, 0)
b <- c(1, 0)
c <- c(5, 5)

X <- rbind(a, b, c) # a, b and c are combined per row
colnames(X) <- c("x", "y") # rename columns

X # display the points

OUTPUT:

##   x y
## a 0 0
## b 1 0
## c 5 5

根据勾股定理(Pythagorean formula),我们知道 ( x a , y a ) (x_a, y_a) (xa,ya) ( x b , y b ) (x_b, y_b) (xb,yb)之间的距离在 R 2 \mathbb{R}^2 R2中是 ( x a − x b ) 2 + ( y a − y b ) 2 \sqrt{(x_a - x_b)^2 + (y_a - y_b)^2} (xaxb)2+(yayb)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值