Wikidata知识库

之前大部分知识库问答工作的知识库使用的是Freebase,但是Freebase已经停止更新,大部分dump迁移到Wikidata知识库上。

#Items
为了支持维基百科上所有可用的知识,我们首先需要一种存储这些知识表示形式的方法。这些知识的表示形式称为items

#Item Pages
每个条目都有自己的页面(收集关于它的所有数据)和惟一标识符。这个标识符看起来总是类似于Qxx。虽然这个标识符对于机器和用许多不同的语言表示知识很有用,但是它对人类不是很友好。

#LABELS
在这里插入图片描述
1.标签类似于描述项目内容的页面标题。它应该尽可能的短(例如,Earth,而不是Planet Earth)
2.标签不必是惟一的,因为它们可以通过描述消除歧义

##Descriptions
如前所述,描述用于通过提供关于项目的更多细节来消除标签的歧义。
例如,“2007自然纪录片”和“四大经典元素之一”都是对地球的描述——它们都不是我们生活的星球!

##Aliases
在Wikidata上,项目的另一种名称(如人的昵称或动物的科学名称)称为别名。

在《Wikidata: A Free Collaborative Knowledge Base》论文中,指出了Simple Data和Not-So-Simple Data,
Simple Data:为了存储文本标签和语言链接之外的结构化数据,Wikidata使用了一个简单的数据模型。数据基本上是通过使用属性值对来描述的。例如,罗马这个item可能有一个“population”的property,值为2,777,979。property本身就是对象,它具有带有标签、别名和描述的Wikidata页面。然而,与item相反,这些页面没有链接到Wikipedia文章
另一方面,property页总是指定一个数据类型,该数据类型定义property可以具有哪种类型的值。“population”是一个数字,邮政编码是一个字符串。
Not-So-Simple Data:属性值对在许多情况下过于简单。例如,维基百科上说罗马的人口根据Istat公布的估计,截至2010年,这一数字为2,761,477。即使不考虑源信息,这些信息也很难用属性值对表示,因此,我们得到一个模型,其中分配给项的属性值对可以有附加的从属属性值对,我们称之为qualifiers。qualifiers可用于声明上下文信息,也可以用来编码三元关系。比如,梅丽尔·斯特里普(Meryl Streep)演过《铁娘子》中的Margaret Thatcher这个角色,你可以在电影这个ITEM中添加一个值为梅丽尔·斯特里普的cast member的property,和一个额外的qualifiersr, ‘role=Margaret Thatcher’.

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值