数据挖掘中的聚类分析

最新推荐文章于 2023-10-18 20:31:14 发布

gcyxf

最新推荐文章于 2023-10-18 20:31:14 发布

阅读量4.7k

点赞数

分类专栏： Coursera

本文链接：https://blog.csdn.net/gcyxf/article/details/45335293

版权

记录Coursera上由数据挖掘大牛韩家伟教授开的一门课程——Cluster Analysis in Data Mining。

-Considerations for Cluster Analysis

partitioning criteria (single level vs. hierarchical partitioning)
separation of clusters (exclusive vs. non-exclusive [e.g.: one doc may belong to more than one class])
similarity measure (distance-based vs. connectivity-based [e.g., density or contiguity])
clustering space (full space [e.g., often when low dimensional] vs. subspace [e.g., often in high-dimensional clustering])

Four issues:
-Quality

deal with different types of attributes: numerical, categorical, text, multimedia, networks, and mixture of multiple types
clusters with arbitrary shape
deal with noisy data

-Scalability

-Constraint-based clustering

-Interpretable and usability

Cluster Analysis Categorization:
-Technique-centered

-Data type-centered

clustering numerical data, categorical data, text, multimedia, time-series data, sequences, stream data, networked data, uncertain data.

-Additional insight-centered

Typical Clustering Methods:
-Distance-based

-Density-based and grid-based

density-based: at a high-level of granularity and then post-processing to put together dense regions into an arbitrary shape.
grid-based: individual regions are formed into a grid-like structure

-Probabilistic and generative models

-High-dimensional clustering

subspace clustering (bottom-up, top-down, correlation-based method vs. $\delta$ -cluster method)
dimensionality reduction (co-clustering [column reduction]: PLSI, LDA, NMF, spectral clustering)

Lecture2:
Good clustering:

proximity: similarity or dissimilarity

-Dissimilarity Matrix

-Distance on numeric data: Minkowski Distance

A popular distance measure:
$d(i,j) = \sqrt[p]{|x_{i1}-x_{j1}|^p+|x_{i2}-x_{j2}|^p+\dotsb+|x_{il}-x_{jl}|^p}$ ，
其中， $i=(x_{i1},x_{i2},\dots,x_{il})$ ， $j=(x_{j1},x_{j2},\dots,x_{jl})$ 为 $l$ 维数据， $p$ 为order (这种距离也常被成为 $l-p$ norm)。
Property:
positivity; symmetry; triangle inequality.
$p=1$ : Manhanttan (or city block) distance
$p=2$ : Euclidean distance
p→∞

关注