基于scipy层次聚类的python实现

最新推荐文章于 2024-07-22 18:52:16 发布

风息神怒

最新推荐文章于 2024-07-22 18:52:16 发布

阅读量4.1k

点赞数 3

分类专栏： scipy 文章标签： python scipy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012260341/article/details/78035509

版权

前段时间的项目中碰到一个分层聚类问题，任务是对语料库中的高频词汇进行分层聚类并刻画分类结果中的簇内的层次关系。第一想法是到网上去搜搜看看有没有什么好用的库。看了sklearn上的层次聚类的库函数，尼玛居然要我指定簇的个数，层次聚类的特点就是无需指定簇的个数嘛！逗我？之后发现scipy下的cluster.hierarchy可以做层次聚类。开干！单词的描述用的是word2vec词向量，挺火的一个工具，google开发的。我用的200维词向量，训练方法网上一大堆，训练的结果就是一个类似于词向量字典的东西，建立了单词与向量之间的映射关系。有了单词的表示，那么就可以刻画单词之间的相似性了。

在分层聚类中，我们要考虑到相似性度量的参数，以及簇间距离的计算方式。采用余弦相似度作为参数，介于单连接和全连接之间的average作为簇间距离的计算方式。我先是得到了语料库中词频最高的5000个单词，转化为word2vec词向量之后，做分层聚类。

代码如下：

points = [self.Word2Vec[i] for i in mykeys[0:n]]#mykeys为得到的词频字典的键的列表

Z = sch.linkage(points , method='average', metric='cosine')#得到对应的Z矩阵

cluster = sch.fcluster(Z, t=1, criterion='inconsistent')#分层聚类结果

cluster的结果是一个列表，里面有n个元素，对应原始观测点的聚类之后所属的簇的id。

然后我仔细研究了Z矩阵的构成，它一共有n-1行，4列，第一列和第二列的值代表节点id，按照簇出现的顺序进行编号。然后第三列是这两个id之间的相似程度，或者说是距离，这里余弦相似度被转化为距离了，也就是1-cos(point1, point2)。第四列是按照当前行合并之后得到的节点id。这样以来，可以得到n个叶子结点id，n-1个内部节点id，一共2*n-1个节点

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。