基于规则嵌入的论文比对系统(10)-增添规则

原有规则

  • CCS分类的相似度
  • reference的相似程度
  • 在该子空间上的文本中关键词的相似度

增添规则

  • keywords的杰卡德相似度

代码

import config
paperID_list=[]
with open(config.ARTICLES, 'r') as f:
    for index, line in enumerate(f.readlines()):
        line = line.strip('\n').split("\t")
        paperId=int(line[-1])
        paperID_list.append(paperId)
paperId_keywords_dict={}
index=0
with open(config.KEYWORDS,'r') as f:
    for line in f:
        line=line.strip('\n').split("\t")
        line=line[:-1]
        paperId=paperID_list[index]
        index=index+1
        paperId_keywords_dict[paperId]=line     
def PaperId2KeywordsJaccard(paperId1,paperId2):
    temp_list1=paperId_keywords_dict[int(paperId1)]
    temp_list2=paperId_keywords_dict[int(paperId2)]
    temp_set=set(temp_list1+temp_list2)
    fenmu=len(temp_set)
    fenzi=len(temp_list1)+len(temp_list2)-fenmu
    return fenzi/fenmu

总结

接下来的主要工作就是代码的整合,以及测试数据的处理等等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值