2017.04.03:数据仓库与数据挖掘03



DBSAN优点

1.与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。

2.与K-means方法相比,DBSCAN可以发现任意形状的簇类。

3.同时,DBSCAN能够识别出噪声点。

4.DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点:

1. DBScan不能很好反映高维数据。

2. DBScan不能很好反映数据集以变化的密度。

 

聚合层次聚类:最初每个对象自成一个族,然后根据族之间的距离,这些原子族进行合并。

划分层次聚类:最初所有对象都属于同一个族,然后对这个族进行划分。

 

BIRCH:通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。 其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。

Birch 算法主要分为以下两个阶段:

(1) 扫描数据库,动态的建立一棵存放在内存的CF 树。若内存不够,则增大阈值,在 原树基础上构造一棵较小的树。

(2) 对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇 的大小,并且数据的输入顺序也会影响到聚类结果。因此,需要对叶节点进一步利用一个全 局性的聚类算法,改进聚类质量。

 

基于模型的聚类:利用一定的数学模型进行聚类。

GMM(GaussianMixture Model),高斯混合模型(或者混合高斯模型)。高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

GMM vs K-Means:GMM除了将数据对象指派给某个族外,还给出了对象属于该族的概率。

 

SOM:自组织神经网络。当外界输入不同的样本数据到人工的自组织神经网络中,一开始,输入样本引起输出兴奋细胞的位置各不相同,但自组织后会形成一些细胞群,他们分别代表了输入样本,反映了输入样本的特征。

 

基于网格的聚类:使用一种多分辨率的网络数据结构。它将对象空间量化成有限数目的单元,这些网格形成了网格结构,所有的聚类结构都在该结构上进行。这种方法的主要优点是处理速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中的每一维的单元数。

STING:利用网格单元保存数据统计信息,从而实现多分辨率的聚类

CLIQUE:是一种结合了网格和密度的聚类算法


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值