自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 KMeans中k值的选取(python)

数据读取1.导包import matplotlib.pyplot as pltfrom sklearn.metrics import silhouette_scorefrom sklearn.cluster import KMeans2.读取数据data = readData("test_data.txt")用手肘法 看看 不同聚类个数的效果distortions = [] # 簇内误差平方和sil_score = [] # 轮廓系数for i in range(2, 15):

2021-03-05 10:19:25 2440 5

原创 局部敏感哈希——冗余文档发现

冗余文档发现具体步骤第一步:Shingling目的:将文档转化为集合第二步:最小哈希(针对Jaccard相似度)最小哈希:将大集合转化为小的签名同时保留其相似度。签名:表示集合的较短的整数向量,能表示集合间的相似度。思想是:将每一列C“哈希”成一个小的签名h©,使得sim(C1,C2)等于签名的h(C1)和h(C2)的“相似度”。目标是:找到一个哈希函数h(·),使得:如果sim(C1,C2)大,则h(C1)=h(C2)的概率大如果sim(C1,C2)大,则h(C1)=h(C2)的概率大如

2020-12-05 20:59:37 242

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除