规则函数整理
简单说明
另外三个同学分别负责的三个规则(①ccs分类形似度 ②refference相似度 ③子空间sentence关键词相似度)+④我自己补充的关于keywords的杰卡德相似度,将这四部分的函数实现都放在一个rules.py文件里,参数都是两篇论文的paper_Id(③的参数还有一个0-4的子空间Id值的选择),返回值均为相似度值
代码
这里就不再展示了,四个规则函数在我之前的博客,以及我的另外三位队友的博客里都有详细解释说明。我所作的工作就是把他们整合起来,进行报错的处理(比如 division by 0的问题,我就在分母上加了0.00001,还有索引越界的问题,在他们原来代码的基础上添加了一些条件语句)
文件结构介绍
-
ACM_dataset文件夹存放的是ACM数据集的一些原始数据
-
data文件夹存放的是子空间label生成模型处理过的数据
-
data_process_result文件夹存储的是在过程中处理的数据结果(存起来主要为了后面使用更快速)
-
model文件夹存放的是最终训练得到的模型以及存储word2vec结果的向量
-
allTestSample-测试数据处理
-
buildModel-模型构建+模型训练
-
config-存放参数
-
data_process-前期数据预处理
-
PaperId2SubspaceNum-生成论文Id和子空间分布之间的对应关系
-
prediction-模型预测
-
rules-所有规则处理的函数
-
SentToVec-word2vec生成词向量