机器学习(一)——聚类

参考资料
《机器学习》——周志华

1. 聚类任务

(1)目的
聚类试图将样本划分为若干通常不相交的子集。

(2)符号描述

  • 假定样本集 D = { x 1 , x 2 , ⋯   , x m } D=\{x_1,x_2,\cdots,x_m\} D={ x1,x2,,xm}包含m个样本。
  • 每个样本 x i = { x i 1 , x i , 2 , ⋯   , x i , n } x_i=\{x_{i1},x_{i,2},\cdots,x_{i,n}\} xi={ xi1,xi,2,,xi,n}是一个n维特征向量。
  • 样本被划分为k个不相交的簇 { C l ∣ l = 1 , 2 , ⋯   , k } \{C_l|l=1,2,\cdots,k\} { Cll=1,2,,k}。我们用 λ j ∈ { 1 , 2 , ⋯   , k } \lambda_j \in \{1,2,\cdots,k\} λj{ 1,2,,k}表示样本 x j x_j xj的簇标记。
    因此: x j ∈ C λ j x_j \in C_{\lambda_j} xjCλj
  • 聚类结果可以用m个元素的簇标记向量 λ = { λ 1 , λ 2 , ⋯   , λ m } \lambda = \{\lambda_1,\lambda_2,\cdots,\lambda_m\} λ={ λ1,λ2,,λm}表示

2. 性能度量

(1)目的

  1. 正如其名,性能度量能够评估聚类效果的好坏。簇内相似度高、簇间相似度低。
  2. 可以将使用的性能度量作为聚类过程的优化目标。

根据是否需要参考模型,可以将指标分为外部指标(external index)内部指标(internal index)

2.1 外部指标

标准: 准确率(贴合情况)

对数据集 D = { x 1 , x 2 , ⋯   , x m } D=\{x_1,x_2,\cdots,x_m\} D={ x1,x2,,xm}通过聚类给回的簇划分为 C = { C 1 , C 2 , ⋯   , C k } C=\{C_1,C_2,\cdots,C_k\} C={ C1,C2,,Ck}参考模型给出的簇划分为 C ∗ = { C 1 ∗ , C 2 ∗ , ⋯   , C s ∗ } C^*=\{C^*_1,C^*_2,\cdots,C^*_s\} C=

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冠long馨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值