相似文本聚类

最新推荐文章于 2023-05-18 18:31:00 发布

真炎破天

最新推荐文章于 2023-05-18 18:31:00 发布

阅读量951

点赞数

分类专栏： nlp 文章标签：深度学习 python 聚类人工智能机器学习

本文链接：https://blog.csdn.net/u012409283/article/details/121509363

版权

nlp 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

聚类方法

原型聚类

原型是指样本空间中具有代表性的点。此类算法假设聚类结构能通过一组原型刻画，在现实聚类中极为常用。如：k-means、高斯混合聚类
高斯混合聚类：：

层次聚类

层次聚类根据划分策略包括聚合层次聚类和拆分层次聚类，由于前者较后者有更广泛的应用且算法思想一致，因此本节重点介绍聚合层次聚类算法。
聚合层次聚类的基本思想：
1）计算数据集的相似矩阵；
2）假设每个样本点为一个簇类；
3）循环：合并相似度最高的两个簇类，然后更新相似矩阵；
4）当簇类个数为1时，循环终止；
聚类流程如下图所示。此处核心是如何计算各簇类间的距离
在这里插入图片描述
簇间相似度的计算方法：最小距离、最大距离、平均距离、中心距离、最小方差法
算法复杂度：空间复杂度=O(n2), 时间复杂度：O(n3)
算法优化：我们可以通过连通性约束（connectivity constraint）降低算法复杂度，甚至提高聚类结果。具体实现如下：

# 定义不包含样本点在内的10个最近邻的连通样本点
from sklearn.neighbors import kneighbors_graph
connectivity = kneighbors_graph(X, n_neighbors=10, include_self=False)

ward = AgglomerativeClustering(n_clusters=6, connectivity=connectivity,
                               linkage='ward').fit(X)