短文本聚类【DBSCAN】算法原理+Python代码实现+聚类结果展示


算法原理

常见的聚类算法

聚类算法属于常见的无监督分类算法,在很多场景下都有应用,如用户聚类,文本聚类等。常见的聚类算法可以分成两类:

  • 以 k-means 为代表的基于分区的算法
  • 以层次聚类为代表的基于层次划分的算法

对于第一类方法,有以下几个缺点:

  1. 需要事先确定聚类的个数,当数据集比较大时,很难事先给出一个合适的值
  2. 只适用于具有凸形状的簇,不适用于具有任意形状的簇
  3. 对内存的占用资源比较大,难以推广至大规模数据集

对于第二类方法,有以下缺点:

  1. 需要确定停止分裂的条件
  2. 计算速度慢

DBSCAN聚类

A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise (Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu)
http://www.philippe-fournier-viger.com/spmf/DBScan.pdf

DBSCAN是一类基于密度的算法,能有效解决上述两类算法的问题。

DBSCAN的基本假设是一个集群的密度要显著高于噪声点的密度。因此,其基本思想是对于集群中的每一个点,在给定的半径范围内,相邻点的数量必须超过预先设定的某一个阈值。

因此,DBSCAN算法中包含两个重要的参数:

  • eps:聚类类别中样本的相似度衡量,与类别内样本相似度成反比。可以理解为同一个类别当中,对两个样本之间距离的最大值限定。
  • min_samples:每个聚类类别中的最小样本数,会对未分类样本数量造成影响,与未分类样本数量成正比。当相似样本数量少于该参数时,不会聚到一起。

在实际应用过程中,根据样本的大小,以及样本的大致分布,了解聚类结果会随着这两个参数如何变化之后,可以根据自己的经验对两个参数进行调整。只有两个模型参数需要调整,因此调参过程也不会太麻烦。


代码实现

import需要的包

# === import packages === #
import jieba.posseg as pseg
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
from sklearn.cluster import DBSCAN

载入数据

根据数据文件的不同存在不同的数据载入方

  • 16
    点赞
  • 131
    收藏
    觉得还不错? 一键收藏
  • 19
    评论
模糊C均值聚类算法是一种经典的聚类算法,它是基于模糊数学理论的,可以用来处理数据集中存在部分不确定性的情况。下面我将介绍一下如何使用模糊C均值聚类算法对中国足球进行聚类,并给出相应的Matlab代码。 1. 原理 模糊C均值聚类算法中,每个数据点都被赋予了一定的隶属度,表示该数据点属于各个聚类中心的可能性,而不是只属于其中一个聚类中心。具体地,设有m个数据点和n个聚类中心,第i个数据点到第j个聚类中心的隶属度为$u_{ij}$,则模糊C均值聚类算法的目标是最小化以下目标函数: $$J=\sum_{i=1}^m\sum_{j=1}^n(u_{ij})^m\|x_i-c_j\|^2$$ 其中,$x_i$为第i个数据点,$c_j$为第j个聚类中心,m为模糊指数,通常取值为2。 随着迭代次数的增加,每个数据点对于不同聚类中心的隶属度会发生变化,最终达到一种稳定状态,此时每个数据点都被归为某个聚类中心。 2. Matlab代码 下面是一份Matlab代码,用于实现模糊C均值聚类算法对中国足球进行聚类。 ```matlab %% 读取数据 data = xlsread('china_soccer.xlsx'); %% 初始化参数 m = 2; % 模糊指数 n = 3; % 聚类中心个数 max_iter = 100; % 最大迭代次数 tol = 1e-5; % 收敛阈值 %% 初始化隶属度矩阵U [m, ~] = size(data); U = rand(m, n); U = U ./ sum(U, 2); %% 迭代求解聚类中心和隶属度 for iter = 1:max_iter % 更新聚类中心 c = (U.^m)' * data ./ sum(U.^m)'; % 计算距离矩阵 dist = pdist2(data, c); % 更新隶属度矩阵 U_new = zeros(m, n); for i = 1:m for j = 1:n U_new(i, j) = 1 / sum((dist(i, :) ./ dist(i, j)).^(2/(m-1))); end end % 判断是否收敛 if norm(U_new - U, 'fro') < tol break; end U = U_new; end %% 输出聚类结果 [~, c_idx] = max(U, [], 2); for i = 1:n fprintf('Cluster %d: %d samples\n', i, sum(c_idx == i)); end ``` 在该代码中,我们首先读取了名为"china_soccer.xlsx"的数据文件,该文件包含了中国足球的相关数据。然后,我们初始化了模糊指数、聚类中心个数、最大迭代次数和收敛阈值等参数。接着,我们随机初始化了隶属度矩阵U,并迭代求解聚类中心和隶属度。最后,我们输出了聚类结果。 需要注意的是,该代码中的数据文件需要自行准备,其中的数据格式应该为一个m行n列的矩阵,其中m为样本个数,n为特征个数。在本例中,我们使用了中国足球的相关数据,其中包括每支球队的胜平负比赛数据、进球数、失球数等。 希望这份代码可以帮助你理解模糊C均值聚类算法原理,并且成功地对中国足球进行聚类
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值