http://blog.csdn.net/yczws1/article/details/16993989
知识图谱技术的演进
简述
“图谱”是指进过系统编辑并根据实物描述或摄制的图,是研究某一学科所用的资料。“图谱”中的“图”指的是地图,“谱”指系统,图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律,往往以系列图的形式表示时空动态变化[12]。
知识图谱,也被称为科学知识图谱、知识域可视化或知识域映射地图,是显示科学知识的发展进程与结构关系的的一系列各种不同的图形。它用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。文献[4]也将科学知识图谱译为Scientific Knowledge Map,在上述概念的基础上认为科学知识图谱可以在组织内创造知识共享的环境,从而最终达到促进知识交流和研究深入的目的。
具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科 的核心框架、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出 来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考[12]。
Google知识图谱(Knowledge graph),通过用户搜索query,能够显示关于这个query相关的更多的实时信息。使得搜索智能化,根据用户的意图得到用户想要的结果。
知识图谱,可将搜索结果进行知识系统化。一个关键词搜索也能获得多维度的相关信息,呈现在有结构化的知识卡上。为用户提供有完整知识体系的搜索结果。
相比于之前的搜索结果看来,“知识图谱”将在三个方面提高Google搜索的最终结果:
找到正确的结果。由于一个关键词可能代表多重含义,所以知识图谱会将最全面的信息展现出来,让用户找到自己最想要的那种含义。
最好的总结。有了知识图谱,Google 可以更好的理解用户搜索的信息,并总结处相关的内容和主题。当你搜“玛丽·居里”时,你不仅可以获得这个关键词的所有相关内容,还能获得居里夫人的详细生平介绍。
更深、更广。由于“知识图谱”会给出搜索结果的完整知识体系,所以用户往往会发现很多不知道的东西(知识)。当你搜索一个即将去玩的地方时,可能你会发现一个以此命名的餐馆,甚至还可能发现还有一本小说就叫这个名字,并且已经改编成了同名电影。
涉及到的方面
1.复杂的数据模型构建:freebase 的namespace domain type property,其中的相互关联关系。
2. 数据结构、数据存储、图数据存储
3. 数据收集困难:这种结构化的数据,添加困难,需要的字段比较多。
4. 完整的体系:freebase的体系价值很大,需要内部构建基础的数据,同时需要定制规则,让 其他数据源接入,商业合作类型的。需要大量的人工进行审核和规范。
特点
1、能够利用对自然语言查询进行深入的理解,并从语义层面解析用户查询意图;
2、能够利用海量的结构化知识库,针对用户查询提供准确的答案。
3、充分利用结构化大数据,深入理解用户自然语言查询并针对查询出准确的答案,能够更好地给出准确的答案,能够更好地满足人类对知识获取的需求,同时也代表计算和搜索的未来。
背后的支持
知识图谱的背后是庞大的信息库。知识图谱的信息搜集工作始于2010年收购的Metaweb。Metaweb专注于将不同文字表述与同一个实体连接起来,并探索这些实体的属性和彼此之间的关系,最终提供一种新的搜索形式。Metaweb的数据来源主要来源与Freebase ,而google的信息来源较广。
发展趋势
知识图谱:未来的数据挖掘,基于海量数据之上的数据管理平台(DMP)。搭建使用即反馈的个性化数据产品平台。根据用户的任何需求,追究映射其根源,实时个性化推荐。在需求和产品上精益求精个性化。更加符合用户的需求。
对比
相比与Goggle提出的knowledge graph ,Facebook也于2013年1月15日推出了图谱搜索(Graph search)。该功能基于社交图谱(social graph)的语义搜索服务。目的:让一切信息可搜索化、可被发现用户登录使用脸谱搜索框时,能在下拉菜单中中使用好友、照片、地点和兴趣等新的搜索选项。与基于关键词匹配的传统网络搜索引擎相比,图谱搜索能够支持更自然、复杂的查询输入,并针对查询直接给出答案。与搜索引擎关键词自动补足功能类似,图谱搜索会在用户输入时同步预测用户搜索意图,并根据用户选择进行查询扩展。
图谱搜索是基于社交图谱构建起来的搜索服务,与基于关键词匹配的传统网络搜索引擎相比,图谱搜索能够支持更自然、复杂的查询输入,并针对查询直接给出答案。
除脸谱外,信息技术领域的其他巨头也先后推出了类似的基于结构化数据的搜索产品或服务,作为其进军和探索下一代搜索引擎技术的桥头堡和试验田。
谷歌提出了知识图谱[9] 的概念,并推出了基于知识图谱的新型搜索服务。知识图谱从本质上讲是一个知识库,基于知识图谱的搜索服务则可以看作是一个典型的自动问答系统。与传统网页搜索相比,基于知识图谱的搜索能够更好地理解用户的搜索意图,并对相关内容和主题进行总结。例如,当输入“Bill Gates”时,用户不仅可以获得这个关键词的全部信息,还能获取关于Bill Gates 的介绍。知识图谱还能够提供搜索结果的详细知识体系,帮助用户从更多角度了解搜索结果的相关信息。
有趣的事情[13]
在关于脸谱搜索的演进中,必不可少的两个人是:扎克伯格、拉斯穆森。前者不用多说,后者是Google Maps的缔造者,不用多说,想想有多牛逼。拉斯穆森加入Facebook搜索团队后,开始这个划时代的的产品。他提到:让这一搜索引擎几乎能回答任何问题。给出的结果是:绝不可能,随便输入想要的东西然后就能变魔术一样弹出一个包含相关内容的页面,这种事情不是通过自然语言所能实现的,更别说为所有这些内容编制索引了。在 Facebook 上有超过 1 万亿个用户关系,将这些关系索引化,还要随意利用它们,这绝对是一个巨大的技术挑战!但如果能实现,这将是非常棒的一个产品。With Google's words: you must implement it! Facebook 就像一个巨大的数据库,而你在其中查找匹配的搜索结果,而搜索结果本身也是根据搜索目的进行量身定制的。
相比于Google和Facebook,Microsoft同时也在做出努力。通过提取网页中的非结构化数据,构建了结构化的知识库Satori[11],用于从语义层面提高和改进必应的搜索质量。此外,与谷歌的知识图谱搜索类似,当用户输入的查询语句能够被后台自然语言处理模块解析时,必应将触发自动问答模块,基于Satori 知识库生成答案,并将生成的结果及其相关知识直接返回给用户。
愿景
让我们追到远古的需求,展现尽美。
Vision: Let all the information searchable,can be found.
参考内容:
[1]http://www.36kr.com/p/109843.html
[2]http://www.36kr.com/p/202209.html
[3]http://blog.sina.com.cn/s/blog_7d26e1ac01015itb.html
[4]http://blog.sina.com.cn/s/blog_4caedc7a0102e
[5]http://searchengineland.com/google-launches-knowledge-graph-121585vz6.html
[6]http://blog.sina.com.cn/s/blog_4caedc7a0102evz6.html
[7]http://www.zhihu.com/question/21371605
[8]http://news.cnet.com/8300-5_3-0.html?keyword=knowledge+graph
[9] http://searchengineland.com/google-launches-knowledge-graph-121585
http://www.google.com/insidesearch/features/search/knowledge.html
[11] Gallagher, Sean. How Google and Microsoft taught searchto understand the Web. 2012
[12]http://blog.sina.com.cn/s/blog_7d26e1ac01015itb.html
[13]http://www.guokr.com/article/436673/