python中文相似度计算_如何计算特征列表之间的相似度？

最新推荐文章于 2023-05-07 21:47:08 发布

陈咏开

最新推荐文章于 2023-05-07 21:47:08 发布

阅读量571

点赞数

文章标签： python中文相似度计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31990755/article/details/113502372

版权

该博客探讨了如何在用户和资源特性间建立相似性度量，面对网页访问数据的复杂特性（如位置、时间、访问频率）。作者寻求将文档级TF-IDF方法扩展到用户层面，亟需一种方法整合资源特性，形成用户特征矩阵，以便进行用户相似性计算。

摘要由CSDN通过智能技术生成

我有用户和资源。每个资源由一组特性描述，每个用户与一组不同的资源相关。在我的特定案例中，资源是网页，以及关于访问位置、访问时间、访问次数等的特性信息，这些信息与每次特定的用户相关联。在

我想得到用户之间关于这些特性的相似性度量，但是我找不到一种方法来聚合资源特性。我已经用文本特性完成了这项工作，因为可以将文档添加到一起，然后提取特性(比如TF-IDF)，但我不知道如何继续这个配置。在

为了尽可能清楚地说，我得到的是：>>> len(user_features)

13 # that's my number of users

>>> user_features[0].shape

(2374, 17) # 2374 documents for this user, and 17 features

我可以使用欧几里德距离得到文档的相似度矩阵，例如：

^{pr2}$

但我不知道如何比较用户之间的差异。我应该以某种方式将这些特性聚合在一起，最终得到一个N_Users X N_Features矩阵，但我不知道怎么做。在

有关于如何进行的提示吗？在

有关我正在使用的功能的更多信息：

我这里的功能还没有完全修复。到目前为止，我得到的是13个不同的特性，已经从“视图”聚合而来。我得到的是每个视图的标准差、平均值等，以便有一些“平坦”的东西，以便能够比较它们。我的一个特点是：自从上次查看之后，位置是否发生了变化？一小时前呢？两小时前？在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中文相似度计算_如何计算特征列表之间的相似度？

我有用户和资源。每个资源由一组特性描述，每个用户与一组不同的资源相关。在我的特定案例中，资源是网页，以及关于访问位置、访问时间、访问次数等的特性信息，这些信息与每次特定的用户相关联。在我想得到用户之间关于这些特性的相似性度量，但是我找不到一种方法来聚合资源特性。我已经用文本特性完成了这项工作，因为可以将文档添加到一起，然后提取特性(比如TF-IDF)，但我不知道如何继续这个配置。在为了尽可能清楚地...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。