Tagme Documentation解读

TagMe
可以识别非结构化文本中的即时有意义的子字符串(称为“点”),并以有效的方式将它们中的每个链接到相关的Wikipedia页面。您可以通过向此页面中记录的RESTful API发出查询来注释文本。例如:

https://tagme.d4science.org/tagme/tag?lang=en&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&text=obama visited uk

效果:
在这里插入图片描述

Registering to the service

该服务由D4Science基础架构托管。要获得访问权限,您需要注册到TagMe VRE并通过单击左侧面板中的“显示”按钮来获取授权令牌。现在您已经准备就绪,可以向TagMe RESTful api发出查询了。例如,您可以将浏览器指向:

1. How to annotate

注释文本是TagMe提供的主要服务。注释是一对(点,实体),其中“点”是输入文本的子字符串,“实体”是对Wikipedia页面的引用,表示该点在该上下文中的含义。

响应包括在输入文本中找到的所有注释。 TagMe将属性与每个注释相关联,称为**ρ(rho)**的属性估计注释相对于输入文本的其他实体的“良好程度”。在此我们强调ρ并不表示输入文本中实体的相关性,而是TagMe分配给该注释的置信度得分。您可以使用ρ值来丢弃低于给定阈值的注释。阈值应在间隔[0,1]中选择。合理的阈值在0.1到0.3之间。

使用下面描述的可选参数,响应可以包括其他信息,例如与带注释的实体关联的DBpedia类别。还可以自定义TagMe,以处理Twitter消息。

Parameters:
  • text-必需-使用UTF-8编码的要注释的文本。如果文本很长,我们建议使用POST,因为GET请求的限制设置为8 KB,而POST请求的限制设置为2 MB。无论如何,请记住,TagMe的优势在于其注释短文本的能力,在处理长文本时最好对其进行不同的调整。
  • gcube-token-必需-D4Science服务授权令牌。
  • lang-可选-要注释的文本语言。接受的值为de表示德语,en表示英语,意大利语表示。默认值为en。
  • tweet-可选-为Twitter消息启用特殊的解析器。该解析器旨在更好地处理推文中的常见实体,例如url,用户提及和哈希标签。启用此选项后,text参数可以包含直接从Twitter检索的tweet的JSON转储。有关更多详细信息,请参阅Twitter API。支持的值为true和false,默认值为false。
  • include_abstract-可选-如果启用此选项,则对于每个歧义点,响应还包括相关Wikipedia页面的摘要。支持的值为true和false,默认值为false。
  • include_categories-可选-如果启用此选项,则对于每个歧义点,响应还包括相关Wikipedia页面所属的类别列表。类别列表由DBpedia提供(当前此功能基于DBpedia版本3.8)。支持的值为true和false,默认值为false。
  • include_all_spots-可选-如果启用此选项,则响应将包含有关在输入文本中找到的所有spot的信息,包括TagMe无法用实体注释的spot。在这种情况下,未标记点的JSON对象不包含有关主题的详细信息,例如id,title等。支持的值为true和false,默认值为false。
高级可选参数
  • long_text-TagMe旨在注释短文本,但它在长文本上也具有竞争力。当注释长文本时,TagMe一次仅处理输入文本的有限部分,即斑点窗口,并仅使用该窗口中的周围斑点来注释斑点。使用此参数可以指定长文本的移动窗口。如果要禁用此机制并强制TagMe始终处理整个文本,请将此参数设置为零。在后一种情况下,请注意,将长文本中的所有斑点都考虑在内可能会导致危险的主题漂移,这可能会危害注释的有效性。支持的值是从0开始的整数。
  • epsilon(he fifth letter of the Greek alphabet ( Ε, ε ), transliterated as ‘e.’.)-此参数可用于微调消歧过程:较高的值将偏爱某个地点最常见的主题,而较低的值将考虑更多上下文。当注释诸如tweet之类的特别零碎的文本时,此参数可能很有用,因为上下文不太容易消除歧义,因此最好支持大多数常见主题。支持的值是[0,0.5]范围内的浮点数,默认值为0.3。例如:
https://tagme.d4science.org/tagme/tag?lang=en&include_abstract=true&include_categories=true&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&text=Schumacher won the race in Indianapolis

在这里插入图片描述 共识别了四个实体"Schumacher",“won”. “race” “Indianapolis”

HTTP Errors
 501(不实施)-您请求的资源不是有效的TagMe服务。
 401(UNAUTHORIZED)-您尚未提供服务授权令牌,或者该令牌无效。
 400(BAD REQUEST)-您已发送(或未发送)的参数存在问题。 检查响应消息以获取详细信息。
 500(内部服务器错误)-您的请求遇到了问题。 请将此错误报告给tagme [at] di [dot] unipi [dot]它。

2.How to get spots (mentions) only

该服务可用于识别文本中的斑点(提及维基百科实体的部分文本),而无需链接的实体。

每个斑点都使用一个称为链接概率的因子加权,该因子衡量该子串的可靠性,这一点很重要,该值可用于通过后期处理阶段完善返回的斑点。

参数
  • 文本-必需-必须使用UTF-8编码在其中标识提及的文本。 如果文本很长,我们建议使用POST,因为GET请求的限制设置为8 KB,而POST请求的限制设置为2 MB。
  • lang-可选-要注释的文本语言。 接受的值为de表示德语,en表示英语,意大利语表示。 默认值为en。
  • tweet-可选-为Twitter消息启用特殊的解析器。 该解析器旨在更好地处理推文中的常用实体,例如url,用户提及和哈希标签。 启用此选项后,text参数可以包含直接从Twitter检索的tweet的JSON转储。 有关更多详细信息,请参阅Twitter API。 支持的值为true和false,默认值为false。

例子:

https://tagme.d4science.org/tagme/spot?lang=en&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&tweet=true&text=Recent poll show President Obama opening up a small lead over GOP rival Mitt Romney

效果:
在这里插入图片描述

3.How to compute entity relatedness

该服务通过返回范围为[0,1]的值来计算两个实体之间的相关性,该值表示两个实体在语义上彼此相关的程度,其中0 =不相关,1 =相关。

我们指出,可以通过首先使用TagMe对其进行注释,然后估计其所有带注释实体对之间的成对相关性,来将该服务用于关联两个文本。 所有这些值可以某种方式组合(例如avg,max等),以便得出表示两个输入文本之间相关性的某个值。

这种措施可能非常有效,尤其是在处理简短且结构不佳的文本而没有任何语法术语时(在此,经典的Tf-Idf方案确实会失败!)。

对该API的单个请求最多可以包含100个实体对。 实体通过数值标识:即与实体相对应的页面的Wikipedia内部标识符。

参数

  • lang-可选-要注释的文本语言。接受的值为de表示德语,en表示英语,意大利语表示。默认值为en。
  • id-可选/必需,重复-此参数包含一对实体的数字标识符,例如使用上述“标记服务”接收到的数字标识符。这对代码被编码为字符串,其中两个页面ID用空格字符分隔。必须在请求中指定此参数或参数tt。要请求多个相关性计算,请为所有请求的对重复此参数。如果在请求中发现一次tt参数,则使用此参数提供的任何值都将被忽略。
  • tt-可选/必需,重复-此参数包含一对实体标题,例如使用上面的“标记”服务接收到的实体标题(即对应的Wikipedia页面的标题)。该对被编码为字符串,其中标题中的空格字符由“下划线” char替换,两个标题由空格char分隔。必须在请求中指定此参数或参数ID。要请求多个相关性计算,请为所有请求的对重复此参数。如果在请求中发现一次id参数,则使用此参数提供的任何值都将被忽略。
https://tagme.d4science.org/tagme/rel?&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&ang=en&tt=Linked_data Semantic_Web&tt=University_of_PisaMassachusetts_Institute_of_Technology&tt=Academy_Award James_Cameron&tt=Downing_Street David_Cameron&tt=Academy_Award David_Cameron&tt=Downing_Street James_Cameron&tt=a_wrong_page_title Univeristy_of_Pisa

在这里插入图片描述

Credits and References

TagMe的第一个版本已于2010年发布,Ugo Scaiella和Paolo Ferragina的两篇论文对此进行了描述,这些论文出现在ACM CIKM 2010和IEEE Software的议事记录中。之后,我们对该版本进行了一些改进,并设计了此注释工具的一些成功应用,并将结果发布在三个主要国际会议的会议记录中,分别是文本分类(ECIR 2012),文本/代码段聚类(WSDM 2012)和主题标签分类和歧义消除(AAAI ICWSM 2015)。 TagMe及其应用程序还分别在2010年和2013年获得了两次Google Faculty Awards。

2012年8月,我们对注释引擎进行了重大改进,并提供了新服务。这提高了TagMe的灵活性,精度和速度。当前版本的TagMe用三种语言注释文本:英语,意大利语和德语。将来会添加其他语言。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值