jaccard相似度_相似度聚类

最新推荐文章于 2024-08-19 03:36:02 发布

weixin_39614262

最新推荐文章于 2024-08-19 03:36:02 发布

阅读量1.5k

点赞数

文章标签： jaccard相似度

本文介绍了在实验室实习期间进行的130万个句子的无监督聚类任务，通过筛选减少计算量，采用Jaccard相似度构建矩阵。由于相似度矩阵不适配k-means，选择了谱聚类方法，详细解释了谱聚类的原理，包括无向图、Laplace矩阵、RatioCut和Ncut等概念，并讨论了在大规模稀疏数据集上谱聚类的局限性和解决方案。

摘要由CSDN通过智能技术生成

相似度分析任务：

实验室实习期间，要做一个基于相似度的句子无监督聚类。所有句子一共有130w个，从一开始读数据就遇到了一些问题，以此记录整个流程。

一开始很无知的创建了一个130万*130万的矩阵，结果我的小电脑就直接终止了这个进程，还好不是在实验室的gpu上跑的，于是需要考虑如何有效的构建这样的矩阵。

在学长的建议下，先进行小规模测试，即选出和3000个以上句子都有相似度的句子，这样经过过滤整个句子就从130w变成了仅有4000多个句子，减少了很大的计算量，可以在自己的小电脑上跑一下验证，再在实验室的gpu上跑结果，也算是学到了。

由于矩阵形式是两个句子之间的jaccard相似度即，例第一个句子与第1000个句子相似度为0.5，与第二个句子相似度为0.3等等。

首先这些不是一个距离度量，因此直接基于距离kmeans算法并不能直接使用，如果要使用kmeas算法必须得把这个矩阵转换成一个距离的问题。

基于相似度矩阵的话，可以利用谱聚类进行聚类分析，谱聚类原本是一种基于图结构的聚类方法，其在图中的使用相当于一个切分子图的方法，在子图中其相当于两个图之间的边的权重值，在这里就对应了两个事件之间的相似度。

简介写一下相关原理：

首先考虑这是一个无向图，即1和2与2和1之间的相似度是相同的。

定义一个nxn矩阵

以这个作为一个3x3矩阵的例子，其中的d是与其它节点相似度的合，没有相似度的为0，有的则为对应的值。

而任意两个点之间的权值又可以构成我们的邻

最低0.47元/天解锁文章

weixin_39614262

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。