Tagme Documentation解读

最新推荐文章于 2023-03-27 22:27:43 发布

飞鸡110

最新推荐文章于 2023-03-27 22:27:43 发布

阅读量1.4k

点赞数 1

分类专栏： tagme 文章标签：自然语言处理

本文链接：https://blog.csdn.net/m0_43414114/article/details/109746174

版权

tagme 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了TagMe自然语言处理服务，它能识别非结构化文本中的有意义子字符串并链接到相关Wikipedia页面。文中详细说明了注册服务、注释文本、获取斑点、计算实体相关性等功能的使用方法，还列出了各功能的参数及HTTP错误情况，最后提及了TagMe的发展历程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TagMe
可以识别非结构化文本中的即时有意义的子字符串（称为“点”），并以有效的方式将它们中的每个链接到相关的Wikipedia页面。您可以通过向此页面中记录的RESTful API发出查询来注释文本。例如:

https://tagme.d4science.org/tagme/tag?lang=en&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&text=obama visited uk

效果：
在这里插入图片描述

Registering to the service

该服务由D4Science基础架构托管。要获得访问权限，您需要注册到TagMe VRE并通过单击左侧面板中的“显示”按钮来获取授权令牌。现在您已经准备就绪，可以向TagMe RESTful api发出查询了。例如，您可以将浏览器指向：

1. How to annotate

注释文本是TagMe提供的主要服务。注释是一对（点，实体），其中“点”是输入文本的子字符串，“实体”是对Wikipedia页面的引用，表示该点在该上下文中的含义。

响应包括在输入文本中找到的所有注释。 TagMe将属性与每个注释相关联，称为**ρ(rho)**的属性估计注释相对于输入文本的其他实体的“良好程度”。在此我们强调ρ并不表示输入文本中实体的相关性，而是TagMe分配给该注释的置信度得分。您可以使用ρ值来丢弃低于给定阈值的注释。阈值应在间隔[0,1]中选择。合理的阈值在0.1到0.3之间。

使用下面描述的可选参数，响应可以包括其他信息，例如与带注释的实体关联的DBpedia类别。还可以自定义TagMe，以处理Twitter消息。

Parameters:

text-必需-使用UTF-8编码的要注释的文本。如果文本很长，我们建议使用POST，因为GET请求的限制设置为8 KB，而POST请求的限制设置为2 MB。无论如何，请记住，TagMe的优势在于其注释短文本的能力，在处理长文本时最好对其进行不同的调整。
gcube-token-必需-D4Science服务授权令牌。
lang-可选-要注释的文本语言。接受的值为de表示德语，en表示英语，意大利语表示。默认值为en。
tweet-可选-为Twitter消息启用特殊的解析器。该解析器旨在更好地处理推文中的常见实体，例如url，用户提及和哈希标签。启用此选项后，text参数可以包含直接从Twitter检索的tweet的JSON转储。有关更多详细信息，请参阅Twitter API。支持的值为true和false，默认值为false。
include_abstract-可选-如果启用此选项，则对于每个歧义点，响应还包括相关Wikipedia页面的摘要。支持的值为true和false，默认值为false。
include_categories-可选-如果启用此选项，则对于每个歧义点，响应还包括相关Wikipedia页面所属的类别列表。类别列表由DBpedia提供（当前此功能基于DBpedia版本3.8）。支持的值为true和false，默认值为false。
include_all_spots-可选-如果启用此选项，则响应将包含有关在输入文本中找到的所有spot的信息，包括TagMe无法用实体注释的spot。在这种情况下，未标记点的JSON对象不包含有关主题的详细信息，例如id，title等。支持的值为true和false，默认值为false。

高级可选参数

long_text-TagMe旨在注释短文本，但它在长文本上也具有竞争力。当注释长文本时，TagMe一次仅处理输入文本的有限部分，即斑点窗口，并仅使用该窗口中的周围斑点来注释斑点。使用此参数可以指定长文本的移动窗口。如果要禁用此机制并强制TagMe始终处理整个文本，请将此参数设置为零。在后一种情况下，请注意，将长文本中的所有斑点都考虑在内可能会导致危险的主题漂移，这可能会危害注释的有效性。支持的值是从0开始的整数。
epsilon（he fifth letter of the Greek alphabet ( Ε, ε ), transliterated as ‘e.’.）-此参数可用于微调消歧过程：较高的值将偏爱某个地点最常见的主题，而较低的值将考虑更多上下文。当注释诸如tweet之类的特别零碎的文本时，此参数可能很有用，因为上下文不太容易消除歧义，因此最好支持大多数常见主题。支持的值是[0,0.5]范围内的浮点数，默认值为0.3。例如：

https://tagme.d4science.org/tagme/tag?lang=en&include_abstract=true&include_categories=true&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&text=Schumacher won the race in Indianapolis

在这里插入图片描述共识别了四个实体"Schumacher",“won”. “race” “Indianapolis”

HTTP Errors

 501（不实施）-您请求的资源不是有效的TagMe服务。
 401（UNAUTHORIZED）-您尚未提供服务授权令牌，或者该令牌无效。
 400（BAD REQUEST）-您已发送（或未发送）的参数存在问题。 检查响应消息以获取详细信息。
 500（内部服务器错误）-您的请求遇到了问题。 请将此错误报告给tagme [at] di [dot] unipi [dot]它。

2.How to get spots (mentions) only

该服务可用于识别文本中的斑点（提及维基百科实体的部分文本），而无需链接的实体。

每个斑点都使用一个称为链接概率的因子加权，该因子衡量该子串的可靠性，这一点很重要，该值可用于通过后期处理阶段完善返回的斑点。

参数

文本-必需-必须使用UTF-8编码在其中标识提及的文本。如果文本很长，我们建议使用POST，因为GET请求的限制设置为8 KB，而POST请求的限制设置为2 MB。
lang-可选-要注释的文本语言。接受的值为de表示德语，en表示英语，意大利语表示。默认值为en。
tweet-可选-为Twitter消息启用特殊的解析器。该解析器旨在更好地处理推文中的常用实体，例如url，用户提及和哈希标签。启用此选项后，text参数可以包含直接从Twitter检索的tweet的JSON转储。有关更多详细信息，请参阅Twitter API。支持的值为true和false，默认值为false。

例子：

https://tagme.d4science.org/tagme/spot?lang=en&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&tweet=true&text=Recent poll show President Obama opening up a small lead over GOP rival Mitt Romney

效果：
在这里插入图片描述

3.How to compute entity relatedness

该服务通过返回范围为[0,1]的值来计算两个实体之间的相关性，该值表示两个实体在语义上彼此相关的程度，其中0 =不相关，1 =相关。

我们指出，可以通过首先使用TagMe对其进行注释，然后估计其所有带注释实体对之间的成对相关性，来将该服务用于关联两个文本。所有这些值可以某种方式组合（例如avg，max等），以便得出表示两个输入文本之间相关性的某个值。

这种措施可能非常有效，尤其是在处理简短且结构不佳的文本而没有任何语法术语时（在此，经典的Tf-Idf方案确实会失败！）。

对该API的单个请求最多可以包含100个实体对。实体通过数值标识：即与实体相对应的页面的Wikipedia内部标识符。

参数

lang-可选-要注释的文本语言。接受的值为de表示德语，en表示英语，意大利语表示。默认值为en。
id-可选/必需，重复-此参数包含一对实体的数字标识符，例如使用上述“标记服务”接收到的数字标识符。这对代码被编码为字符串，其中两个页面ID用空格字符分隔。必须在请求中指定此参数或参数tt。要请求多个相关性计算，请为所有请求的对重复此参数。如果在请求中发现一次tt参数，则使用此参数提供的任何值都将被忽略。
tt-可选/必需，重复-此参数包含一对实体标题，例如使用上面的“标记”服务接收到的实体标题（即对应的Wikipedia页面的标题）。该对被编码为字符串，其中标题中的空格字符由“下划线” char替换，两个标题由空格char分隔。必须在请求中指定此参数或参数ID。要请求多个相关性计算，请为所有请求的对重复此参数。如果在请求中发现一次id参数，则使用此参数提供的任何值都将被忽略。

https://tagme.d4science.org/tagme/rel?&gcube-token=fe4df7bf-ab75-4efb-aa1c-551afaa65cd3-843339462&ang=en&tt=Linked_data Semantic_Web&tt=University_of_PisaMassachusetts_Institute_of_Technology&tt=Academy_Award James_Cameron&tt=Downing_Street David_Cameron&tt=Academy_Award David_Cameron&tt=Downing_Street James_Cameron&tt=a_wrong_page_title Univeristy_of_Pisa

在这里插入图片描述

Credits and References

TagMe的第一个版本已于2010年发布，Ugo Scaiella和Paolo Ferragina的两篇论文对此进行了描述，这些论文出现在ACM CIKM 2010和IEEE Software的议事记录中。之后，我们对该版本进行了一些改进，并设计了此注释工具的一些成功应用，并将结果发布在三个主要国际会议的会议记录中，分别是文本分类（ECIR 2012），文本/代码段聚类（WSDM 2012）和主题标签分类和歧义消除（AAAI ICWSM 2015）。 TagMe及其应用程序还分别在2010年和2013年获得了两次Google Faculty Awards。

2012年8月，我们对注释引擎进行了重大改进，并提供了新服务。这提高了TagMe的灵活性，精度和速度。当前版本的TagMe用三种语言注释文本：英语，意大利语和德语。将来会添加其他语言。