K-means文本聚类使用自定义距离函数

问题

在使用K-means对文本聚类时,常用余弦距离,但是scikit-learn中的k-mean只支持欧氏距离,简单的解决办法就是将文本向量标准化(模长变为1),此时欧式距离与余弦距离是单调的,选择欧氏距离与选择余弦距离是等价的,需要注意的是余弦距离=1-余弦相似度,该解决方法详见博文《余弦距离与欧式距离》。但是,如果我们想在K-menas中使用自己定义的距离函数,该怎么办呢,计算文本相似度时,经常会遇到根据任务需求自定义相似度计算指标的情况哦,改scikit-learn的源代码或者自己实现一份支持自定义距离函数的K-means代码显然比较耗时且容易出错,最好是能找到已有的成熟实现。

解决方法

使用pyclustering包(github主页),它基于Python和C++实现了数据挖掘中常用的聚类算法,以及一些振荡网络、神经网络的方法,截止该博文写作之时,这个工具包一直在持续更新,其实现的K-means聚类支持自定义的距离函数。在Python 3环境中安装该工具包pip3 install pyclustering,kmeans使用自定义距离聚类的实例代码如下:

from pyclustering.utils.metric import distance_metric, type_metric
from pyclustering.cluster
  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值