前言
用scikit-learn进行k-means聚类,默认使用欧式距离,为了用余弦距离作为度量,找了一个在生物信息学里比较常用的库:Biopython
。Biopython为k-means聚类提供了各种距离函数,包括余弦距离、皮尔逊相似度量、欧式距离等。
安装
pip install Biopython
![](https://i-blog.csdnimg.cn/blog_migrate/609c54b13f48b5c8f5c679bc6f1b4da6.png)
另外,为了确定一个合理的聚类系数
,采用轮廓系数作为衡量标准:轮廓系数取值为[-1, 1],其值越大越好。
示例
导入数据、包
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武)
# @Date : 2023/4/21
#@email:1344732766@qq.com
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
mpl.rcParams['axes.unicode