基于规则嵌入的论文比对系统——创新实训记录2

最新推荐文章于 2021-05-18 23:05:27 发布

小王今天背单词了吗

最新推荐文章于 2021-05-18 23:05:27 发布

阅读量364

点赞数

本文链接：https://blog.csdn.net/WX1204/article/details/106737340

版权

6.11-6.13 下载数据集+基本概念疑惑解答+相似度计算之Jaccard系数学习

关于数据集

最初的ACM论文数据集中，包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类，以及论文摘要中句子级别的子空间标记（研究背景、研究问题、贡献、方法、实验）。但是没有论文的year,venue属性，即论文发表的年份和发表的期刊或会议信息，所以需要再去爬取或者直接搜集数据。
第一个想法是直接搜集论文数据集，然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表646万个链接关系（matching），并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络（citation network）、论文内容等多种数据集成研究。整个数据集包括以下三个方面:
在这里插入图片描述

即链接关系、MAG 论文集及 AMiner 论文集。
在链接关系中，两个数据集的论文会以 ID 的形式呈现，例：
{
“mid”: “xxxx”,
“aid”: “yyyy”
}
其中，mid 指的是 MAG 的论文 ID，而 aid 则是 AMiner 的论文 ID。
对于数据集 MAG 论文和 AMiner 论文而言，每篇论文都是一个 JSON 对象。其数据模式是：
在这里插入图片描述
由于ACM数据集中论文id的表示方法（只有数字）与OAG数据集中论文id的表示方法（数字和小写字母组成的字符串）不同，所以不能根据论文id进行查找和匹配。我们只能根据paper title在OAG数据集汇中来查找对应的论文，并且取出venue和year信息。
思路如下:对于OAG数据集的处理，把每一篇论文对应的title、year、venue取出来形成一个新的json数据，title数据要全部处理成小写。对于ACM中的每一篇论文，用论文题目去OAG数据集中找到对应的论文，提取出year和venue信息。生成对应的txt文件，每一行对应一篇论文。
代码还没有写，因为数据集太大，前期下载花了很多时间…

基本概念疑惑解答

1.机器学习中，什么是基于子空间的学习，为什么用子空间学习？

子空间学习大意是指通过投影，实现高维特征向低维空间的映射，是一种经典的降维思想。
例如人脸图像，如果每幅图像提取出来的特征是1000维，则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题，且很多人认为真实有效的人脸图像特征并没有那么高维，可能只有100维，即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维，就是子空间学习问题。在模式识别中，可能绝大多数的维数约简（降维，投影）算法都算是子空间学习，如PCA, LDA, LPP, LLE等等。
子空间学习的主要问题，就是如何将特征从高维空间压缩到低维空间，需要保留什么样的信息，设定什么样的准则，低维空间的特征具有哪些特征等问题。
作者：Jason Gu
链接：https://www.zhihu.com/question/26908926/answer/35314770
来源：知乎
A sub-field within machine learning that is based on algorithms for learning multiple levels of representation in order to model complex relationships among data.Higher-level features and concepts are thus defined in terms of lower-level ones,and such a hierarchy of features is called a deep architecture.Most of these models are based on unsupervised learning of representations.

CCS分类

“中国标准文献分类法” CCS(Chinese Classification for Standards)简称中标分类。“中国标准文献分类法”的类目设置以专业划分为主，适当结合科学分类。序列采取从总到分，从一般到具体的逻辑系统。本分类法采用二级分类，一级主类的设置主要以专业划分为主，二级类目设置采取非严格等级制的列类方法；一级分类由二十四个大类组成，每个大类有100个二级类目；一级分类由单个拉丁字母组成，二类分类由双数字组成。

3. 子空间标记模型中#content

表示该语义嵌入向量的内容，有点不太理解。

4.数据集：

ACM数据集中IndexTerms是指论文的CCS分类，有层次结构的分类吗？GeneralTerms表示论文的大类标签吗？sessions表示论文发表在某会议上，而session代表会议主题或者论文的主题？

相似度计算之Jaccard系数学习

一、定义

给定两个集合A,B，Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值，定义如下：
在这里插入图片描述
当集合A，B都为空时，J(A,B)定义为1。
与Jaccard 系数相关的指标叫做Jaccard 距离，用于描述集合之间的不相似度。Jaccard 距离越大，样本相似度越低。公式定义如下：

其中对参差（symmetric difference）：

二、性质

在这里插入图片描述

三、实例

主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
1、如果比较X与Y的Jaccard相似系数，只比较xn和yn中相同的个数，公式如下：
如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3;
2、样本A与样本B是两个n维向量，而且所有维度的取值都是0或1。例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。
概念浅析：假设A是坚果Pro2 , B是苹果8x。为了比较两个手机，给出了n个评价指标，即n维特征，也就是n维向量：1-是国产、2-有刘海、3-价格高于5000。那么对于A=（100），B=（011）。所以，n维向量指样本的N维特征，组成一个集合。而集合是由元素组成的，在对应的特征位置，如果样本有该特征，这个位置集合值取1，表示包含该元素；否则，取0，表示不包含该元素。可见，元素=特征。
P：样本A与B都是1的维度的个数
q：样本A是1，样本B是0的维度的个数
r：样本A是0，样本B是1的维度的个数
s：样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为：
这里p+q+r可理解为A与B的并集的元素个数，而p是A与B的交集的元素个数。
而样本A与B的杰卡德系数表示为：
在这里插入图片描述
原文链接：添加链接描述

四、主要应用场景

jaccard相似系数（Jaccard similarity coefficient）主要应用场景为数据聚类、比较文本的相似度，用于文本的查重与去重，计算对象间的距离。
Jaccard的应用很广，最常见的应用就是求两个文档的文本相似度，通过一定的办法(比如shinging)对文档进行分词，构成词语的集合，再计算Jaccard相似度即可。当然，用途还有很多，不过大多需要结合其他的技术。比如：①过滤相似度很高的新闻，或者网页去重②考试防作弊系统③论文查重系统④计算对象间距离，用于数据聚类等。

五、在实训中的应用

在相同子空间中论文之间的相似性与三种特征相关：
① CCS分类的相似度；
② reference的相似程度；
③ 在该子空间上的文本中关键词的相似度。
其中，特征②③可以使用Jaccard相似系数来计算。
Reference为参考文献，或许我们可以假定参考文献也都在我们的数据集中，每一篇论文都有一个id。我们如果想要计算论文A,论文B在reference上的相似程度，可以把他们的参考文献id当做集合，即Sa={id1，id2，…，idn}，Sb={id1，id2，…，idm}，然后针对这两个集合计算Jaccard相似系数。
在该子空间上的文本中关键词的相似度，我们假定前期对数据预处理的时候，对于每篇论文摘要中的每个句子都提取出了关键词。把关键词想成符号度量，Jaccard系数为两篇论文中相同关键词的个数/两篇论文总的关键词个数（去重）。

小王今天背单词了吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于规则嵌入的论文比对系统——创新实训记录2

6.11-6.13 下载数据集+基本概念疑惑解答+相似度计算之Jaccard系数学习关于数据集最初的ACM论文数据集中，包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类，以及论文摘要中句子级别的子空间标记（研究背景、研究问题、贡献、方法、实验）。但是没有论文的year,venue属性，即论文发表的年份和发表的期刊或会议信息，所以需要再去爬取或者直接搜集数据。第一个想法是直接搜集论文数据集，然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Micro
复制链接

扫一扫