基于规则嵌入的论文比对系统——创新实训记录2

6.11-6.13 下载数据集+基本概念疑惑解答+相似度计算之Jaccard系数学习

关于数据集

最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。但是没有论文的year,venue属性,即论文发表的年份和发表的期刊或会议信息,所以需要再去爬取或者直接搜集数据。
第一个想法是直接搜集论文数据集,然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表646万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
即链接关系、MAG 论文集及 AMiner 论文集。
在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:
{
“mid”: “xxxx”,
“aid”: “yyyy”
}
其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。
对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:
在这里插入图片描述
由于ACM数据集中论文id的表示方法(只有数字)与OAG数据集中论文id的表示方法(数字和小写字母组成的字符串)不同,所以不能根据论文id进行查找和匹配。我们只能根据paper title在OAG数据集汇中来查找对应的论文,并且取出venue和year信息。
思路如下:对于OAG数据集的处理,把每一篇论文对应的title、year、venue取出来形成一个新的json数据,title数据要全部处理成小写。对于ACM中的每一篇论文,用论文题目去OAG数据集中找到对应的论文,提取出year和venue信息。生成对应的txt文件,每一行对应一篇论文。
代码还没有写,因为数据集太大,前期下载花了很多时间…

基本概念疑惑解答

1.机器学习中,什么是基于子空间的学习,为什么用子空间学习?

子空间学习大意是指通过投影,实现高维特征向低维空间的映射,是一种经典的降维思想。
例如人脸图像,如果每幅图像提取出来的特征是1000维,则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题,且很多人认为真实有效的人脸图像特征并没有那么高维,可能只有100维,即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维,就是子空间学习问题。在模式识别中,可能绝大多数的维数约简(降维,投影)算法都算是子空间学习,如PCA, LDA, LPP, LLE等等。
子空间学习的主要问题,就是如何将特征从高维空间压缩到低维空间,需要保留什么样的信息,设定什么样的准则,低维空间的特征具有哪些特征等问题。
作者:Jason Gu
链接:https://www.zhihu.com/question/26908926/answer/35314770
来源:知乎
A sub-field within machine learning that is based on algorithms for learning multiple levels of representation in order to model complex relationships among data.Higher-level features and concepts are thus defined in terms of lower-level ones,and such a hierarchy of features is called a deep architecture.Most of these models are based on unsupervised learning of representations.

CCS分类

“中国标准文献分类法” CCS(Chinese Classification for Standards)简称中标分类。“中国标准文献分类法”的类目设置以专业划分为主,适当结合科学分类。序列采取从总到分,从一般到具体的逻辑系统。本分类法采用二级分类,一级主类的设置主要以专业划分为主,二级类目设置采取非严格等级制的列类方法;一级分类由二十四个大类组成,每个大类有100个二级类目;一级分类由单个拉丁字母组成,二类分类由双数字组成。

3. 子空间标记模型中#content

表示该语义嵌入向量的内容,有点不太理解。

4.数据集:

ACM数据集中IndexTerms是指论文的CCS分类,有层次结构的分类吗?GeneralTerms表示论文的大类标签吗?sessions表示论文发表在某会议上,而session代表会议主题或者论文的主题?

相似度计算之Jaccard系数学习

一、定义

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
在这里插入图片描述
当集合A,B都为空时,J(A,B)定义为1。
与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:
在这里插入图片描述
其中对参差(symmetric difference):在这里插入图片描述

二、性质

在这里插入图片描述

三、实例

主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
1、如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下:
如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3;
2、样本A与样本B是两个n维向量,而且所有维度的取值都是0或1。例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
概念浅析:假设A是坚果Pro2 , B是 苹果8x。 为了比较两个手机,给出了n个评价指标,即n维特征,也就是n维向量:1-是国产、2-有刘海、3-价格高于5000。那么对于A=(100),B=(011)。所以,n维向量指样本的N维特征,组成一个集合。而集合是由元素组成的,在对应的特征位置,如果样本有该特征,这个位置集合值取1,表示包含该元素;否则,取0,表示不包含该元素。可见,元素=特征。
P:样本A与B都是1的维度的个数
q:样本A是1,样本B是0的维度的个数
r:样本A是0,样本B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
这里p+q+r可理解为A与B的并集的元素个数,而p是A与B的交集的元素个数。
而样本A与B的杰卡德系数表示为:
在这里插入图片描述
原文链接:添加链接描述

四、主要应用场景

jaccard相似系数(Jaccard similarity coefficient)主要应用场景为数据聚类、比较文本的相似度,用于文本的查重与去重,计算对象间的距离。
Jaccard的应用很广,最常见的应用就是求两个文档的文本相似度,通过一定的办法(比如shinging)对文档进行分词,构成词语的集合,再计算Jaccard相似度即可。当然,用途还有很多,不过大多需要结合其他的技术。比如:①过滤相似度很高的新闻,或者网页去重②考试防作弊系统③论文查重系统④计算对象间距离,用于数据聚类等。

五、在实训中的应用

在相同子空间中论文之间的相似性与三种特征相关:
① CCS分类的相似度;
② reference的相似程度;
③ 在该子空间上的文本中关键词的相似度。
其中,特征②③可以使用Jaccard相似系数来计算。
Reference为参考文献,或许我们可以假定参考文献也都在我们的数据集中,每一篇论文都有一个id。我们如果想要计算论文A,论文B在reference上的相似程度,可以把他们的参考文献id当做集合,即Sa={id1,id2,…,idn},Sb={id1,id2,…,idm},然后针对这两个集合计算Jaccard相似系数。
在该子空间上的文本中关键词的相似度,我们假定前期对数据预处理的时候,对于每篇论文摘要中的每个句子都提取出了关键词。把关键词想成符号度量,Jaccard系数为两篇论文中相同关键词的个数/两篇论文总的关键词个数(去重)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Tensorflow、OpenAI搭建的强化学习框架,训练机器自动操盘 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
尝试用基于值函数逼近的强化学习方法玩经典的马里奥游戏,取得了一定成果 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值