信息检索——利用SIMNOMERGE余弦相似度计算文档得分

clown0004

于 2022-06-16 00:45:00 发布

阅读量275

点赞数

文章标签： python

本文链接：https://blog.csdn.net/clown0004/article/details/125275417

版权

实验目的：
通过实验，使学生掌握利用 SIMNOMERGE余弦相似度计算文档得分的算法。
实验内容：
XML由于文档包含非常复杂的树形结构，属性之间还存在嵌套关系，属性数目也高于参数化搜索和域搜索，因此检索更为复杂。基于向量空间模型的XML搜索中，为更好地提高检索正确率，需要利用SIMNOMERGE余弦相似度计算文档得分

实验要求：
输入：上下文c1，c2，c3与c1的匹配结果CR ，即CR(c1,c1)，CR(c1,c2)，CR(c1,c3)词项，以及词项t在各文档中的倒排记录表。
输出：每个文档的相似度得分
编程语言：python

SimNoMerge算法的伪代码

num=1
d=[]
dt_w={}
CR={}
while 1:
    dt=input("请输入词项t在文档C{}中的倒排记录表（用，隔开）：".format(num)).replace(" ",'').split(',')
    w=list(map(float,input("请输入相应的权重（用,隔开）：").replace(" ",'').split(',')))
    d+=dt
    if len(w)==len(w):
        C=eval(input("请输入文档C{}与查询的上下文相似度:".format(num)))
        dt_w[num]=dict(zip(dt,w))
        CR[num]=C
        num+=1
    else:
        print("输入有误！",end = '')
    flag = input('要继续输入吗[y/n]:')
    if flag == 'n':
        break
        
d=set(d)
score={}
for i in d:
    for j in CR.keys():
        if i in dt_w[j].keys():
            score[i]=round(score.get(i,0)+dt_w[j][i]*CR[j],3)
print("相似度得分：",score