[学习笔记]数据挖掘-week6

聚类算法

学习视频:80240372X 数据挖掘:理论与算法(自主模式)

思维导图

聚类算法评价标准

比较简便的评价标准如下
J e = ∑ i = 1 c ∑ x ∈ D i ∣ ∣ x − M i ∣ ∣ 2 m i = 1 n i ∑ x ∈ D i x \begin{aligned} J_e &= \sum_{i=1}^c\sum_{x\in D_i}||x-M_i||^2\\ m_i &= \frac{1}{n_i}\sum_{x\in D_i}x \end{aligned} Jemi=i=1cxDixMi2=ni1xDix
上述表示为,将数据聚成 C 个类别的结果的评价。每个类内部越相近,结果越小。但有一个假设在——处理的数据形状类似球形。

K-Means

问题:

  • k 值无法直接给定
  • 可能会收敛到局部最优解
  • 对噪声与离群点敏感(K-Means使用的是均值)

高斯混合模型

g ( x , μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 / ( 2 σ 2 ) f ( x ) = ∑ i = 1 n a i g ( x , μ , σ ) , a i ≥ 0   & ∑ i a i = 1 \begin{aligned} g(x,\mu,\sigma) &= \frac{1}{\sqrt{2\pi \sigma^2}}e^{-(x-\mu)^2/(2\sigma^2)}\\ f(x) &= \sum_{i=1}^na_ig(x,\mu,\sigma),\quad a_i\ge0\ \&\sum_ia_i=1 \end{aligned} g(x,μ,σ)f(x)=2πσ2 1e(xμ)2/(2σ2)=i=1naig(x,μ,σ),ai0 &iai=1

EM 算法不保证全局最优,类似梯度下降法。初始值猜测不太好时,最终收敛的结果也可能不太好。

DBSCAN

将数据划分成三类:

  • Core Point:核心点
  • Border Point:边缘点(在核心点周围)
  • Noise Point:噪点(需要消除)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值