问题
在使用K-means对文本聚类时,常用余弦距离,但是scikit-learn中的k-mean只支持欧氏距离,简单的解决办法就是将文本向量标准化(模长变为1),此时欧式距离与余弦距离是单调的,选择欧氏距离与选择余弦距离是等价的,需要注意的是余弦距离=1-余弦相似度
,该解决方法详见博文《余弦距离与欧式距离》。但是,如果我们想在K-menas中使用自己定义的距离函数,该怎么办呢,计算文本相似度时,经常会遇到根据任务需求自定义相似度计算指标的情况哦,改scikit-learn的源代码或者自己实现一份支持自定义距离函数的K-means代码显然比较耗时且容易出错,最好是能找到已有的成熟实现。
解决方法
使用pyclustering
包(github主页),它基于Python和C++实现了数据挖掘中常用的聚类算法,以及一些振荡网络、神经网络的方法,截止该博文写作之时,这个工具包一直在持续更新,其实现的K-means
聚类支持自定义的距离函数。在Python 3环境中安装该工具包pip3 install pyclustering
,kmeans使用自定义距离聚类的实例代码如下:
from pyclustering.utils.metric import distance_metric, type_metric
from pyclustering.cluster