短文本聚类之DBSCAN
算法原理
常见的聚类算法
聚类算法属于常见的无监督分类算法,在很多场景下都有应用,如用户聚类,文本聚类等。常见的聚类算法可以分成两类:
- 以 k-means 为代表的基于分区的算法
- 以层次聚类为代表的基于层次划分的算法
对于第一类方法,有以下几个缺点:
- 需要事先确定聚类的个数,当数据集比较大时,很难事先给出一个合适的值
- 只适用于具有凸形状的簇,不适用于具有任意形状的簇
- 对内存的占用资源比较大,难以推广至大规模数据集
对于第二类方法,有以下缺点:
- 需要确定停止分裂的条件
- 计算速度慢
DBSCAN聚类
A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise (Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu)
http://www.philippe-fournier-viger.com/spmf/DBScan.pdf
DBSCAN是一类基于密度的算法,能有效解决上述两类算法的问题。
DBSCAN的基本假设是一个集群的密度要显著高于噪声点的密度。因此,其基本思想是对于集群中的每一个点,在给定的半径范围内,相邻点的数量必须超过预先设定的某一个阈值。
因此,DBSCAN算法中包含两个重要的参数:
- eps:聚类类别中样本的相似度衡量,与类别内样本相似度成反比。可以理解为同一个类别当中,对两个样本之间距离的最大值限定。
- min_samples:每个聚类类别中的最小样本数,会对未分类样本数量造成影响,与未分类样本数量成正比。当相似样本数量少于该参数时,不会聚到一起。
在实际应用过程中,根据样本的大小,以及样本的大致分布,了解聚类结果会随着这两个参数如何变化之后,可以根据自己的经验对两个参数进行调整。只有两个模型参数需要调整,因此调参过程也不会太麻烦。
代码实现
import需要的包
# === import packages === #
import jieba.posseg as pseg
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
from sklearn.cluster import DBSCAN
载入数据
根据数据文件的不同存在不同的数据载入方