知识图谱演进

http://blog.csdn.net/yczws1/article/details/16993989

知识图谱技术的演进


简述  

  图谱是指进过系统编辑并根据实物描述或摄制的图,是研究某一学科所用的资料。图谱中的指的是地图,指系统,图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律,往往以系列图的形式表示时空动态变化[12]。


  知识图谱,也被称为科学知识图谱、知识域可视化或知识域映射地图,是显示科学知识的发展进程与结构关系的的一系列各种不同的图形。它用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。文献[4]也将科学知识图谱译为Scientific Knowledge Map,在上述概念的基础上认为科学知识图谱可以在组织内创造知识共享的环境,从而最终达到促进知识交流和研究深入的目的。

 

  具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科 的核心框架、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出 来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考[12]。

 

  Google知识图谱(Knowledge graph),通过用户搜索query,能够显示关于这个query相关的更多的实时信息。使得搜索智能化,根据用户的意图得到用户想要的结果。

  知识图谱,可将搜索结果进行知识系统化。一个关键词搜索也能获得多维度的相关信息,呈现在有结构化的知识卡上。为用户提供有完整知识体系的搜索结果。 

  相比于之前的搜索结果看来,知识图谱将在三个方面提高Google搜索的最终结果:

  找到正确的结果。由于一个关键词可能代表多重含义,所以知识图谱会将最全面的信息展现出来,让用户找到自己最想要的那种含义。

  最好的总结。有了知识图谱,Google 可以更好的理解用户搜索的信息,并总结处相关的内容和主题。当你搜玛丽·居里时,你不仅可以获得这个关键词的所有相关内容,还能获得居里夫人的详细生平介绍。

  更深、更广。由于知识图谱会给出搜索结果的完整知识体系,所以用户往往会发现很多不知道的东西(知识)。当你搜索一个即将去玩的地方时,可能你会发现一个以此命名的餐馆,甚至还可能发现还有一本小说就叫这个名字,并且已经改编成了同名电影。

涉及到的方面

   1.复杂的数据模型构建:freebase namespace domain type property,其中的相互关联关系。

      2. 数据结构、数据存储、图数据存储

      3. 数据收集困难:这种结构化的数据,添加困难,需要的字段比较多。

      4. 完整的体系:freebase的体系价值很大,需要内部构建基础的数据,同时需要定制规则,让 其他数据源接入,商业合作类型的。需要大量的人工进行审核和规范。

特点

  1、能够利用对自然语言查询进行深入的理解,并从语义层面解析用户查询意图;

  2、能够利用海量的结构化知识库,针对用户查询提供准确的答案。

        3、充分利用结构化大数据,深入理解用户自然语言查询并针对查询出准确的答案,能够更好地给出准确的答案,能够更好地满足人类对知识获取的需求,同时也代表计算和搜索的未来。

背后的支持 

        知识图谱的背后是庞大的信息库。知识图谱的信息搜集工作始于2010年收购的MetawebMetaweb专注于将不同文字表述与同一个实体连接起来,并探索这些实体的属性和彼此之间的关系,最终提供一种新的搜索形式。Metaweb的数据来源主要来源与Freebase ,google的信息来源较广。

发展趋势

       知识图谱:未来的数据挖掘,基于海量数据之上的数据管理平台(DMP)。搭建使用即反馈的个性化数据产品平台。根据用户的任何需求,追究映射其根源,实时个性化推荐。在需求和产品上精益求精个性化。更加符合用户的需求。

对比

  相比与Goggle提出的knowledge graph ,Facebook也于2013115日推出了图谱搜索(Graph search)。该功能基于社交图谱(social graph)的语义搜索服务。目的:让一切信息可搜索化、可被发现用户登录使用脸谱搜索框时,能在下拉菜单中中使用好友、照片、地点和兴趣等新的搜索选项。与基于关键词匹配的传统网络搜索引擎相比,图谱搜索能够支持更自然、复杂的查询输入,并针对查询直接给出答案。与搜索引擎关键词自动补足功能类似,图谱搜索会在用户输入时同步预测用户搜索意图,并根据用户选择进行查询扩展。

  图谱搜索是基于社交图谱构建起来的搜索服务,与基于关键词匹配的传统网络搜索引擎相比,图谱搜索能够支持更自然、复杂的查询输入,并针对查询直接给出答案。

  除脸谱外,信息技术领域的其他巨头也先后推出了类似的基于结构化数据的搜索产品或服务,作为其进军和探索下一代搜索引擎技术的桥头堡和试验田。

谷歌提出了知识图谱[9] 的概念,并推出了基于知识图谱的新型搜索服务。知识图谱从本质上讲是一个知识库,基于知识图谱的搜索服务则可以看作是一个典型的自动问答系统。与传统网页搜索相比,基于知识图谱的搜索能够更好地理解用户的搜索意图,并对相关内容和主题进行总结。例如,当输入“Bill Gates”时,用户不仅可以获得这个关键词的全部信息,还能获取关于Bill Gates 的介绍。知识图谱还能够提供搜索结果的详细知识体系,帮助用户从更多角度了解搜索结果的相关信息。

有趣的事情[13]

在关于脸谱搜索的演进中,必不可少的两个人是:扎克伯格、拉斯穆森。前者不用多说,后者是Google Maps的缔造者,不用多说,想想有多牛逼。拉斯穆森加入Facebook搜索团队后,开始这个划时代的的产品。他提到:让这一搜索引擎几乎能回答任何问题。给出的结果是:绝不可能,随便输入想要的东西然后就能变魔术一样弹出一个包含相关内容的页面,这种事情不是通过自然语言所能实现的,更别说为所有这些内容编制索引了。在 Facebook 上有超过 万亿个用户关系,将这些关系索引化,还要随意利用它们,这绝对是一个巨大的技术挑战!但如果能实现,这将是非常棒的一个产品。With Google's words: you must implement it!  Facebook 就像一个巨大的数据库,而你在其中查找匹配的搜索结果,而搜索结果本身也是根据搜索目的进行量身定制的。

 

  相比于GoogleFacebookMicrosoft同时也在做出努力。通过提取网页中的非结构化数据,构建了结构化的知识库Satori[11],用于从语义层面提高和改进必应的搜索质量。此外,与谷歌的知识图谱搜索类似,当用户输入的查询语句能够被后台自然语言处理模块解析时,必应将触发自动问答模块,基于Satori 知识库生成答案,并将生成的结果及其相关知识直接返回给用户。

   

愿景

让我们追到远古的需求,展现尽美。

Vision: Let all the information searchable,can be found.

 

 

 

参考内容:

[1]http://www.36kr.com/p/109843.html

[2]http://www.36kr.com/p/202209.html

[3]http://blog.sina.com.cn/s/blog_7d26e1ac01015itb.html

[4]http://blog.sina.com.cn/s/blog_4caedc7a0102e

[5]http://searchengineland.com/google-launches-knowledge-graph-121585vz6.html

[6]http://blog.sina.com.cn/s/blog_4caedc7a0102evz6.html

[7]http://www.zhihu.com/question/21371605

[8]http://news.cnet.com/8300-5_3-0.html?keyword=knowledge+graph

[9] http://searchengineland.com/google-launches-knowledge-graph-121585

http://www.google.com/insidesearch/features/search/knowledge.html

[11] Gallagher, Sean. How Google and Microsoft taught searchto understand the Web. 2012

[12]http://blog.sina.com.cn/s/blog_7d26e1ac01015itb.html

[13]http://www.guokr.com/article/436673/


一.介绍(Introduction) 1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。  输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。  可访问 http://www.xunta.so立即体验. 2.什么是搜人引擎?  这里的搜人不是人肉搜索,而是用户根据自己的兴趣和爱好输入相关知识点,然后找到这个知识点上的达人。 3.XunTa上的延伸  XunTa允许对每个人名下的数量无限制的关键词单独打分,从而实现基于“评价图谱”和“知识图谱”的好友匹配与信息推荐。 二.XunTa技术特点  1.在架构上内生地支持增量式实时搜索。  2.除达人搜索外,还提供最新搜索。  3.经过长期测试,性能稳定,速度快 三.布署方法  1. 软件包解压后可看到以下文件目录结构:  xunta_v1.0   |---demo    可直接布署到Tomcat的项目war包   |---luceneIndex  索引文件夹,下面放置Lucene4.3版本的索引文件,存放了XXX条来自社交网站的“发言”数据。   |---XunTa   XunTa项目源代码,可导入Eclipse(javaEE版)并运行。   |---readme.txt  您正在看的该说明文件。  2. Tomcat下直接体验XunTa搜人引擎   a.将索引文件夹luceneIndex_new复制到D盘根目录下   b.将 XunTa.war 复制到Tomcat的webapps目录下   c.启动Tomcat,然后在浏览器地址栏输入 http://localhost:8080/XunTa 可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。   (Tomcat的安装这里不另说明。)  3. 在myEclipse下导入源代码   a.xunta文件夹下放的是项目源文件,可直接导入myEclipse生成一个名为“xunta”的项目,   b.xunta\LocalContext\so\xunta\localcontext目录下的LocalContext.java是配置项目索引文件路径的类,默认是d:\\luceneIndex\\travel.     如果索引文件夹luceneIndex_new没有复制到D盘根目录下,则要修改默认路径.   c.启动myEclipse中的Tomcat7,然后在浏览器地址栏输入 http://localhost:8080/XunTa 即可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。 四.其它  1. 用户可按Lucene4.3标准自行创建索引数据,索引文档的结构可下载lukeall工具来查看.  2. 用户也可使用与XunTa配套的社交信息实时抓取工具来生成索引数据。它通过配置模版的方法抓取网页数据,也可以通过API获得目标网站的数据。该工具整理好亦将上载到开源社区。如急需,可向我们索取。  3. 你可以通过试用下面的网站来测试部分功能。 遇到任何技术问题,或对搜索创意感兴趣,欢迎加入寻TA网官方QQ群(298342166)讨论,也可发邮件(Email:1019357922@qq.com)或致电(18521702948,13817385089)垂询. 下载并使用该开源代码,表明您同意并遵守CC-BY-SA 3.0协议和GNU自由文档许可证.您可以上述协议条款下修改和再使用。 标签:(一种用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值