这篇文章是iswc(International Semantic Web Conference)2015年的论文。属于Entity Resolution and Linking类别
要记笔记,就写在这里啦。方便以后查看(2016/4/13)
读了TRank,以及BLANC里面的metric。(2016/4/14)
修改及整理了一些内容(2016/4/16更新)
-----------------------------------------------------------我是分割线-----------------------------------------------------------------------------------------------
Coreference Resolution&Anaphora Resolution
共指消解与指代消解
共指就是两个mention指向的同一个entity;e.g:iphone 和苹果手机(虽然貌似需要语言一样==)
指代就是后面的mention需要前面的mention来解析,存在一定的关系;e.g:(小明迟到了,这真是奇怪。”这“需要”小明“来解析,但是属于不同的entity,一个指的是一件事,一个指的是一个人)
两者的结合就是,后面的mention需要前面的mention来解析,并且两个mention指的是同一个entity。e.g:(还是前面的例子,小明迟到了,他不经常迟到的。”他“需要前面的”小明“来解析,而且两个都是指小明这个人)。
Named Entity Recognition(NER)命名实体识别
最大熵模型与条件随机域模型
ontology&entity&mention(这三个名词真是==)
本体&实体&提及
本体就是一个比较虚的东西,来自哲学概念,主要指的描述概念及概念之间关系的概念模型,通过概念之间的关系来描述概念的语义。
实体就是mention指向的东西,具有实际的意义。
提及就是在文中提到的短语什么的。
总的来说就是一个文本中会有很多mention;这些mention可能指向同一个实体,或者不同的实体;然后这些实体可能都属于一个本体类别下(比如都属于语言学等等)。
参考资料:
本体一词是指对客观世界存在的事物的系统描述,在信息科学的领域中,1991年Neches等人最早给出的定义是:给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成,规定这些词汇外延规则。1993年Gruber将其定义表述为“概念模型的明确的规范说明”。1997年Borst进一步完善了该本体的定义,表述为“共享概念模型的形式化规范说明”,增加了“共享”和“形式化”两个限定语。1998年Studer等人在对Gruber和Borst的定义进行了深入研究后,将本体进一步表述为“共享概念模型的明确的形式化规范说明”并从此形成了目前信息学界对本体概念比较一致的看法。
根据斯坦福大学医学院发本体的构建七步法,构建本体有如下七个步骤:
(1) 确定本体的专业领域与范畴
(2) 考察复用现有本体的可能性
(3) 列出本体中的重要术语
(4) 定义类和类的等级关系
(5) 定义类的属性
(6) 定义属性的分面
(7) 创建实例
以上所述的七步法仅适用于某一专业或学科领域本体的构建。本体的体系结构主要包括3个要素:核心元素集、元素间的交互作用以及这些元素到规范语义间的映射关系。对于本体的一般构造过程,可以用以下公式进行表示:
本体 = 概念(Concept)+ 属性(Property) + 公理(Axiom)+ 取值(Value)+ 名义(Nominal)
从以上的一般公式中,我们还可以归纳出本体当中的基本关系类型,共有四类:
(1) part-of关系,表达概念之间部分和整体的关系
(2) kind-of关系,表达概念之间的集成关系
(3) instance-of关系,表达概念的实例和概念之间的关系
(4) attribute-of关系,表达某个概念是另一个概念的属性
DBpedia&Wikipedia&YAGO
DBpedia:
关联数据是一种推荐的最佳实践,用来在与以往中使用URI和RDF发布、分享、连接各类数据、信息和知识,发布和部署实例数据和类数据,从而通过HTTP协议解释并获取这些数据同时强调数据的相互关联、相互联系以及有益于人际理解的语境信息。在目前的具体实践中,数据往往以RDF文件的形式发布到互联网络上,存储在关联数据知识库中。而大多数需要使用这些关联数据的网站可以直接从在线关联数据知识库的数据接口获取RDF文件并提取其中的相关信息反馈给用户,从而实现信息和数据的跨网站共享。从上面不难看出,在线关联数据知识库在当前的关联数据语义网构想中占据着核心位置。
DBpedia就是这样一个在线关联数据知识库项目。它从维基百科的词条中抽取结构化数据,以提供更准确和直接的维基百科搜索,并在其他数据集和维基百科之间创建连接,并进一步将这些数据以关联数据的形式发布到互联网上,提供给需要这些关联数据的在线网络应用、社交网站或者其他在线关联数据知识库。同时,与一些同时期的关联数据知识库项目不同,DBpedia提供的关联数据知识内容并不受限于某一较小的专业或学科领域,到2012年为止,DBpedia知识库项目已有超过3640000个条目,这些条目涉及人名、地名、音乐专辑、电影、组织、种族等等多个类目。在大数量和宽范围的前提下,DBpedia知识库的条目组织就成为决定其运行效率的关键因素。DBpedia知识库以构建本体的形式对条目进行组织,起到了一定的效果。
在DBpedia知识库一例中,由于所需要构建本体的是维基百科条目,因此其专业领域与范畴无法简单确定,因此在DBpedia的本体构建中,采用了类似于以叙词表为基础的自动化本体转换的方式。但同样的,维基百科的词条表并非规范的叙词表,其类目划分也无法简单归于某一专业分类之下,词语的专指度不可避免的出现不足,因此,在DBpedia的本体构建中,类目划分和定义基本是人工完成,之后的条目转换才使用了自动转换的方式。
Semantic Annotation(语义标注)
实现语义网目标的一个重要前提是利用本体词汇标注 Web 资源。本体在 Tim Berners-Lee提出的语义网的七层体系结构中位于第四层,其目的是为捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义[16]。基于本体的语义标注利用由专家定义好的本体支持内容创建者在 Web 页面中添加语义元数据,使其内容能被人和机器所理解,与大众标注相比较这是一种自顶向下的分类法,属于受控词汇的标注方法。利用语
义标注工具可以对现有的大量 Web 信息进行标注,使得当前的 Web 页面内容成为机器可识别的数据,从而构成语义网的基础.