php 实现聚类,php – 使用k-means进行文档聚类,聚类应该是余弦相似性还是术语向量?...

本文档探讨了在PHP环境中实施TF-IDF权重计算和K-Means聚类的过程。作者在硕士论文中提出了一种新的TF-IDF方法,并计划对其进行评估。步骤包括读取文档集、清理、特征提取、计算TF-IDF,然后标准化为固定长度向量。对于余弦相似度,作者困惑于如何在没有查询输入的情况下应用,以及如何处理K-Means的输入。目前,作者不确定是使用余弦相似度矩阵还是原始术语向量作为K-Means的输入。
摘要由CSDN通过智能技术生成

抱歉,如果这个答案显而易见,请善待,这是我第一次来这里:-)

如果有人能给我一个关于k-means的适当输入数据结构的引导,我将不胜感激.我正在撰写一篇硕士论文,其中我提出了一个针对我的领域的新的TF-IDF术语称量方法.我想使用k-means对结果进行聚类,然后应用一些内部和外部评估标准来查看我的新术语加权方法是否有任何优点.

到目前为止我的步骤(在PHP中实现),所有工作都是

第1步:读入文档集

第2步:清理文档集,特征提取,功能选择

第3步:术语频率(TF)

第4步:反向文档频率(IDF)

第5步:TF * IDF

步骤6:将TF-IDF标准化为固定长度向量

我在哪里挣扎

第7步:向量空间模型 – 余弦相似度

我可以找到的唯一示例,将输入查询与每个文档进行比较并找到相似性.如果没有输入查询(这不是信息检索系统),我是否将语料库中的每个文档与语料库中的每个其他文档(每对文档)进行比较?我找不到任何应用于完整文档集合的Cosine Similarity示例,而不是与集合相比的单个示例/查询.

第8步:K-Means

我在这里努力去理解k-means的输入向量是否应该包含集合中每个文档的余弦相似度得分矩阵与每个其他文档(余弦相似度矩阵).或者k-means应该应用于术语向量模型.如果它是后者,我可以找到k-means的每个例子都是非常基本的,并且可以用单数表示.如何处理我的文档集合中有多个术语等事实

余弦相似度和K-Means被暗示为在许多例子上记录聚类的解决方案,因此我遗漏了一些非常明显的东西.

如果有人能给我一个引导我会永远感激.

谢谢

克莱尔

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值