不看后悔 | 分分钟教你做知识图谱大数据专家

http://chuansong.me/n/1840839551422

知识图谱示例

假设你想搜与“联想”有关的信息,下图是谷歌搜索结果。请观察左侧和右侧红框的搜索结果有什么不同呢?



左侧是传统谷歌搜索返回的一列依相关度排列的网站链接,你要自己打开一个个网页去阅读抽取与“联想”有关的知识。右侧则将一条条与“联想”有关的知识作为结果直接呈现给你,例如联想的简介、股价、CEO、创立信息等等(省去了自己一个个网页点击阅读的辛苦)。右侧其实是谷歌于2012年推出的Knowledge Panel (知识面板)。对比左侧,右侧直接返回知识的方式是更智能、更精准、更移动友好的未来搜索方式。


“构成这个世界的是实体,而非字符串(things, not strings)。”


过去几十年,搜索引擎的本质工作是将字符串匹配做的更精准,而不是去理解字符串的含义。现在,谷歌能够做到Knowledge panel,离不开知识图谱的支持。知识图谱提供了结构化的知识体系,使得搜索引擎可以在海量图谱上进行语义分析、知识推断、图谱遍历等一系列知识挖掘。


2知识图谱概述知识图谱是一种数据模型,将世界上的知识组织成为实体和实体之间的关系。


2.1关系规则(Schema)


知识图谱首先要定义一个系统的关系规则。关系规则定义了不同类别(class)的实体(entity)之间可以存在的关系


《儿歌三百首》......中有这么一首口口相传:“爸爸的爸爸叫什么?爸爸的爸爸叫爷爷”。这句歌词描述了两条关系规则(下图,字丑见谅):一个男性类别实体可以是另一男性类别实体的父亲;一个男性类别实体可以是另一男性类别实体的祖父。一条关系规则是一个三元组:<主, 谓, 宾>。



2.2关系(Relationship) 


依据定义的关系规则,知识图谱就可以实体化描述世界上千千万万的的父子关系和祖孙关系(下图描述了最牛80后一家的父子关系)。这规则也可用来描述你家的父子关系。类似的,可以定义夫妻关系、雇佣关系、位置关系、客户关系、投资关系、贸易关系等可以想到的所有知识。



一条关系是一条边(以两个实体为顶点,关系为边)。千千万万的边在一起就构成了知识图谱。


知识图谱(Knowledge graph)原名其实是知识库(Knowledge base)。谷歌将自己的知识库称为知识图谱。因为这名字比较酷炫便于炒作,就广泛通用了。知识图谱Schema有多种标准定义,例如 RDFS。这里不展开叙述。


3知识图谱的优点

问题来了,为什么要用知识图谱?知识图谱作为更高级的结构化数据可以将图分析挖掘、自然语言处理、语义分析等智能技术聚合做以往做不到的事。下面简单列举两个优点。


3.1知识推断补全能力  


根据Schema,知识图谱可以自动推断出新的知识。假设下图左侧是原始的知识图谱,根据两层父子关系,图谱可以自动推断出缺失的祖孙关系,正所谓“爸爸的爸爸是爷爷”。



3.2语义理解能力  


比如字符串“位于香港的博物馆”,对于知识图谱而言这再也不是单纯的字符串,而是饱含语义的关系查询:要查询某一个东西(?),它是属于博物馆类别的,而且是位于香港的。


4应用场景4.1医疗知识图谱  


PatientsLikeMe.com 是一家专注医疗知识图谱的大数据公司,于2017年1月刚融得了1亿美元。它将病人、病症、医院、医生、药品等等医疗数据组织成知识图谱。在图谱上,医生可以搜索家族病史网络,查询相似病例及解决方案;病人可以搜索疾病相关的病症、药品、医生、相似病例等。


图片来源:https://www.patientslikeme.com/


4.2金融反欺诈、反洗钱  


金融业各种交易数据可以构成知识图谱,包括现金账户、股票账户、大宗商品账户、ETF账户、债券账户等之间的所有交易数据。在知识图谱上对潜在的洗钱模式进行模式匹配、子图挖掘,可以让欺诈洗钱账户们无所遁形。


图片来源:http://www.fintrac-canafe.gc.ca/publications/typologies/images/2009-05-01/fig4-eng.jpg


4.3商业知识图谱(商业选址, 广告推荐)  


数据库顶级会议SIGMOD’2016有一篇论文 “Top-k Relevant Semantic Place Retrieval on Spatial RDF Data” 提出了基于空间地理位置和语义查询返回相关知识图谱的技术。该技术可以应用在商业选址、旅游路线酒店推荐、广告推荐、医疗等领域。比如你要在某街道开一家菜馆,根据该论文技术,你可以在知识图谱上查询街道周边的餐馆类型、居民类型、交通配套等,为选址提供全方位支持。


其实,微信、滴滴、顺丰、Airbnb、美团等所有的线上线下的商业数据都是知识图谱。将这些图谱进行实体融合打通整合组成一个大的知识图谱。。。就厉害了。基本上任何商业应用都能做了。


4.4公共安全监测  


古人云,近朱者赤,近墨者黑。这条道理也可以应用在公安知识图谱上,进行安全事件分析、潜在高危地区、高危人员挖掘监测等。公安数据,如户籍、人口、通信、商业、财产信息、交通等可以组织成非常完备的知识图谱。



4.5新闻知识图谱  


新闻媒体行业进行新闻推荐、关系挖掘等。下图,我的天哪!特朗普竟然给扎克伯格提供过婚姻建议。知识图谱在成功吸引我的注意力后,便可以推荐相应的新闻给我阅读了。都是套路,心碎。



5两大技术难点5.1实时响应数十亿级别的知识图谱查询  


2016年底谷歌的知识图谱已经包含了700亿条关系,而这仅是浩瀚知识的九牛一毛。在如此规模上,敏捷的响应速度至关重要。如何将知识图谱大数据技术推动达到企业级应用也是我们联想大数据实验室攻克的一项难题。


5.2自动化生成知识图谱  


知识图谱是高度结构化的数据。如何从无数网页、文本、书籍等非结构化信息中完全自动化精准抽取知识图谱,目前来讲,还是业界未解之谜。学术界做的比较好的有DeepDive等,不过仍然距离业界应用有较高门槛和改进空间。


阅读更多

没有更多推荐了,返回首页