一 、 背景和正确性分析
SCAN 和 LDBSCAN :
SCAN 是基于密度的聚类算法。一个社交网络能被看成是一个图,在这个图上面一个社交
个体能被看成是一个节点, 个体之间的关系则可以被视作一条边。 这种有现实关系映射到图
的思想可以有许多的应用和扩展。 聚类算法就是一种用于发现社交网络中节点间关系的基本
方法。
在社交网络的聚类中,首先要考察的是节点间的连通性,再由连通性的定义找到连通分
量,因为在社交网络中关注的不是节点和节点之间的距离,因此节点间的是否连通不看是
否存在一条边,而是着眼于节点和节点的相似度,只有相似度高的节点才是连通的,相似
度高的点彼此相连就形成了连通分量,从而就形成了一个聚类。相似度不够高的点,也就
是不被其他节点可达的,不在连通分量里面,不属于一个聚类。
但是在真实世界中的多维数据集经常会出现十分偏斜、离散的(相对于高斯密度分布而
言)的分布,这种分布的全局性很难被 SCAN 聚类算法所揭露,因为 SCAN 聚类算法使
用一种全局的特征分析量。
而 LDBSCAN 聚类本来是基于距离的聚类算法,它有一个优点就是不像 SCAN 聚类一样
使用固定的相似度作为参数,它使用MinPts 作为一个参数,去考量某个节点的 MinP
SCAN 和 LDBSCAN :
SCAN 是基于密度的聚类算法。一个社交网络能被看成是一个图,在这个图上面一个社交
个体能被看成是一个节点, 个体之间的关系则可以被视作一条边。 这种有现实关系映射到图
的思想可以有许多的应用和扩展。 聚类算法就是一种用于发现社交网络中节点间关系的基本
方法。
在社交网络的聚类中,首先要考察的是节点间的连通性,再由连通性的定义找到连通分
量,因为在社交网络中关注的不是节点和节点之间的距离,因此节点间的是否连通不看是
否存在一条边,而是着眼于节点和节点的相似度,只有相似度高的节点才是连通的,相似
度高的点彼此相连就形成了连通分量,从而就形成了一个聚类。相似度不够高的点,也就
是不被其他节点可达的,不在连通分量里面,不属于一个聚类。
但是在真实世界中的多维数据集经常会出现十分偏斜、离散的(相对于高斯密度分布而
言)的分布,这种分布的全局性很难被 SCAN 聚类算法所揭露,因为 SCAN 聚类算法使
用一种全局的特征分析量。
而 LDBSCAN 聚类本来是基于距离的聚类算法,它有一个优点就是不像 SCAN 聚类一样
使用固定的相似度作为参数,它使用MinPts 作为一个参数,去考量某个节点的 MinP