短文本聚类【DBSCAN】算法原理+Python代码实现+聚类结果展示

最新推荐文章于 2024-05-11 20:57:59 发布

jessie_weiqing

最新推荐文章于 2024-05-11 20:57:59 发布

阅读量1.5w

点赞数 16

分类专栏：自然语言处理笔记 coding 文章标签： NLP 聚类算法短文本聚类 DBSCAN

本文链接：https://blog.csdn.net/cindy_1102/article/details/95316841

版权

短文本聚类之DBSCAN

算法原理
- 常见的聚类算法
- DBSCAN聚类
代码实现
聚类结果

算法原理

常见的聚类算法

聚类算法属于常见的无监督分类算法，在很多场景下都有应用，如用户聚类，文本聚类等。常见的聚类算法可以分成两类：

以 k-means 为代表的基于分区的算法
以层次聚类为代表的基于层次划分的算法

对于第一类方法，有以下几个缺点：

需要事先确定聚类的个数，当数据集比较大时，很难事先给出一个合适的值
只适用于具有凸形状的簇，不适用于具有任意形状的簇
对内存的占用资源比较大，难以推广至大规模数据集

对于第二类方法，有以下缺点：

需要确定停止分裂的条件
计算速度慢

DBSCAN聚类

A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise （Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu）
http://www.philippe-fournier-viger.com/spmf/DBScan.pdf

DBSCAN是一类基于密度的算法，能有效解决上述两类算法的问题。

DBSCAN的基本假设是一个集群的密度要显著高于噪声点的密度。因此，其基本思想是对于集群中的每一个点，在给定的半径范围内，相邻点的数量必须超过预先设定的某一个阈值。

因此，DBSCAN算法中包含两个重要的参数：

eps：聚类类别中样本的相似度衡量，与类别内样本相似度成反比。可以理解为同一个类别当中，对两个样本之间距离的最大值限定。
min_samples：每个聚类类别中的最小样本数，会对未分类样本数量造成影响，与未分类样本数量成正比。当相似样本数量少于该参数时，不会聚到一起。

在实际应用过程中，根据样本的大小，以及样本的大致分布，了解聚类结果会随着这两个参数如何变化之后，可以根据自己的经验对两个参数进行调整。只有两个模型参数需要调整，因此调参过程也不会太麻烦。

代码实现

import需要的包

# === import packages === #
import jieba.posseg as pseg
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
from sklearn.cluster import DBSCAN

载入数据

根据数据文件的不同存在不同的数据载入方

最低0.47元/天解锁文章

jessie_weiqing

关注

16
点赞
踩
131

收藏

觉得还不错? 一键收藏
19
评论
短文本聚类【DBSCAN】算法原理+Python代码实现+聚类结果展示

短文本聚类之DBSCAN算法原理常见的聚类算法DBSCAN聚类代码实现import需要的包载入数据对文本进行分词，并记录词性文本向量化--TF-IDF权重基于词性的新权重DBSCAN聚类结果算法原理常见的聚类算法聚类算法属于常见的无监督分类算法，在很多场景下都有应用，如用户聚类，文本聚类等。常见的聚类算法可以分成两类：以 k-means 为代表的基于分区的算法以层次聚类为代表的基于层...
复制链接

扫一扫

专栏目录