知识图谱从来源到实现(2)--实体识别(1)

实体识别(1)

从这一篇里开始,我将试图逐渐深入知识图谱这深邃的海洋,探寻其真谛,介绍相关的技术领域(着重于我所掌握的技术原理,由于个人水平有限,请轻喷谢谢)。最终将知识图谱落地于场景。

正式开始之前,首先需要强调的一点,广义上的知识图谱并不是一种明确的、特定的技术,他甚至很难被定义(不同视角下的知识图谱并不相同,而狭义上的知识图谱特指谷歌搜索背后的知识库“The Knowledge Graph is a knowledge base used by Google and its services toenhance its search engine’s
results with information gathered from a variety of sources.”
)。

知识图谱的第一步就是需要定义一个好的“知识的结构”,什么样结构的知识更有利于知识的推理和运用?这个问题往往和知识的推理密不可分(如同食材该如何处理,是切条还是切片还是切丝?往往和之后的烹饪阶段密切相关),因此在知识推理相关篇章再对知识的不同结构做具体阐述。这里先给出结论:实体(属性)—关系,或者说三元组<主、谓、宾>(本质上这两者并无不同,他们对应于图数据库或传统的关系型数据库)的形式目前来看最有利于知识的推理与新知识的发现。

先来聊聊另外一个有趣的话题——什么是“知识”。(首先需要具备基础的“知识”,才能推理出高级的“知识”,正如同巧妇难为无米之炊一样)这个话题有趣在可能一不小心就会引申到哲学领域。可考据的、最早给“知识”下定义的是伟大的希腊先贤—柏拉图,“知识是永恒不变的且适用于世间万物的真理”。这句话我认为说了等于没说,我会追问一句“那什么是真理?真的存在永恒不变的事物吗?”
94年图灵奖获得者Edward Albert Feigenbaum(爱德华·费根鲍姆)对知识的定义可能会更易于理解一些“知识是经过消解、塑造、解释和转换的信息,既知识就是加工过的信息”。我手头《现代汉语规范词典》对知识的定义是“人们在改造世界的实践中所获得的认识和经验的总和”。我个人那站在构建知识图谱的角度,对知识的理解其实很简单:蕴含某种关系的表述。“大理石”不是知识,“大理石是一种石头”这就是知识。说到这,请不要抬杠,有人会反驳,“大理石”怎么不是知识了?他主要成分是CaCO3、外表有各种颜色的花纹,可用来做装饰材料,简简单单的“大理石”中蕴含有这么多的知识呢------拜托,这是因为你已经掌握了关于大理石的先验知识,并以此为前提。

因此从数据中获取知识,这可能是我们首先需要关注的问题。

实际上,如果本身数据就是以结构化的方式存储在数据库里,那么构建知识图谱相对简单,我会在系列博客的最后再加以论述(只是相对,其实对应于不同场景,怎样选择实体,哪些作为属性,这也是很麻烦的一件事,需要对业务场景有比较深刻的理解,并且不同行业场景下暂时并不具备通用性)。学术界对于知识图谱的研究主要也侧重于非结构化的数据,接下来重点阐述的是非结构化的文本数据中的知识抽取(本人对图像处理、语音声纹等缺少经验,并且从另一个角度来说图像和语言声纹通常也可以转化成非结构化的文本形式例如使用OCR技术)。

在已知我们的目标是将知识表示成实体关系三元组的前提下,那么对于非结构化的文本数据如何做抽取知识抽取具体就可以细化成1)实体识别2)实体消歧义3)关系抽取4)事件抽取

那什么是实体?包含特定信息的最小单元。(比如我究竟是定义“刘国梁”为一个实体,还是定义“刘国梁”中的“刘”为一个实体?如果是构建一个百家姓知识图谱,那么“刘”可以说是最小的信息单元,如果构建的是关于人的知识图谱,那我们通常可以将“刘国梁”作为一个实体——当然你也可以将“刘”作为实体,导致的结果将会是知识图谱的无比巨大,当然这可能是知识图谱的终极目标,但至少现在,尤其是在行业中,根据明确的业务需求来确定实体是更明智的选择)通常来说,作为实体的可以使1)人名2)组织、机构名3)地理位置4)时间、日期5)行业专有名词6)明确含义的字符或数值等等

(下篇预告:实体识别的常用算法:HMM(隐形马尔科夫模型)、CRF(条件随机场))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值