2017.04.03：数据仓库与数据挖掘03

傻瓜菜的傻瓜菜地

于 2017-04-04 13:46:25 发布

阅读量425

点赞数

分类专栏：数据分析学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/coco_cai/article/details/69062292

版权

学习笔记同时被 2 个专栏收录

49 篇文章 0 订阅

订阅专栏

32 篇文章 0 订阅

订阅专栏

DBSAN优点

1.与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。

2.与K-means方法相比，DBSCAN可以发现任意形状的簇类。

3.同时，DBSCAN能够识别出噪声点。

4.DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点：

1. DBScan不能很好反映高维数据。

2. DBScan不能很好反映数据集以变化的密度。

聚合层次聚类：最初每个对象自成一个族，然后根据族之间的距离，这些原子族进行合并。

划分层次聚类：最初所有对象都属于同一个族，然后对这个族进行划分。

BIRCH：通过扫描数据库，建立一个初始存放于内存中的聚类特征树，然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征（CF）和聚类特征树（CF Tree）。CF 是指三元组CF=（N，LS，SS），用来概括子簇信息，而不是存储所有的数据点。其中：N：簇中d 维点的数目； LS：N 个点的线性和；SS：N 个点的平方和。

Birch 算法主要分为以下两个阶段：

(1) 扫描数据库，动态的建立一棵存放在内存的CF 树。若内存不够，则增大阈值，在原树基础上构造一棵较小的树。

(2) 对叶节点进一步利用一个全局性的聚类算法，改进聚类质量。由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果，原因是给定的阈值限制了簇的大小，并且数据的输入顺序也会影响到聚类结果。因此，需要对叶节点进一步利用一个全局性的聚类算法，改进聚类质量。

基于模型的聚类：利用一定的数学模型进行聚类。

GMM（GaussianMixture Model），高斯混合模型（或者混合高斯模型）。高斯模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

GMM vs K-Means：GMM除了将数据对象指派给某个族外，还给出了对象属于该族的概率。

SOM：自组织神经网络。当外界输入不同的样本数据到人工的自组织神经网络中，一开始，输入样本引起输出兴奋细胞的位置各不相同，但自组织后会形成一些细胞群，他们分别代表了输入样本，反映了输入样本的特征。

基于网格的聚类：使用一种多分辨率的网络数据结构。它将对象空间量化成有限数目的单元，这些网格形成了网格结构，所有的聚类结构都在该结构上进行。这种方法的主要优点是处理速度快，其处理时间独立于数据对象数，而仅依赖于量化空间中的每一维的单元数。

STING：利用网格单元保存数据统计信息，从而实现多分辨率的聚类

CLIQUE：是一种结合了网格和密度的聚类算法

傻瓜菜的傻瓜菜地

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2017.04.03：数据仓库与数据挖掘03

DBSAN优点1.与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。2.与K-means方法相比，DBSCAN可以发现任意形状的簇类。3.同时，DBSCAN能够识别出噪声点。4.DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。缺点：1.
复制链接

扫一扫

专栏目录

傻瓜菜的傻瓜菜地 CSDN认证博客专家 CSDN认证企业博客

码龄12年

50: 原创

25万+: 周排名

193万+: 总排名

4万+: 访问

: 等级

963: 积分

18: 粉丝

7: 获赞

9: 评论

25: 收藏

私信

关注

热门文章

分类专栏

最新评论

2017.06.22：LDA与困惑度代码
weixin_39651913: 你好，请问困惑度有完整代码吗？请拯救下无法毕业的菜鸟，感谢 972167482@qq.com
2017.06.22：LDA与困惑度代码
weixin_39651913 回复 qq_24163531: 你好，请问困惑度有完整代码吗？请拯救下无法毕业的菜鸟，感谢 972167482@qq.com
2017.06.22：LDA与困惑度代码
weixin_39651913 回复荔197: 你好，请问困惑度有完整代码吗？请拯救下无法毕业的菜鸟，感谢 972167482@qq.com
2017.06.22：LDA与困惑度代码
荔197: 你好，困惑度计算有完整代码吗？感谢一只没办法毕业的菜鸟（^_^）958998024@qq.com
2017.06.22：LDA与困惑度代码
荔197: 你好，困惑度计算有完整代码吗？感谢一只没办法毕业的菜鸟（^_^）

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。