知识图谱搜索引擎

这几天百度不断出新,让人目不暇接。在极简首页之后,《小时代3》的百度知识图谱也悄然在搜索页上线。《小时代3》大热之际,其错综复杂的人物关系并不是每个观众都能理清,百度通过掌握的知识图谱数据直接给出了清晰的网状关系,可视化、支持互动。笔者注意到这个产品的网址前缀是tupu.baidu.com,看来接下来百度必然会推出各种独立的“图谱”页面,百度进入知识图谱时代。

一、我们已从信息时代进入知识时代

如果要对互联网进行分层,它大概可以分为四层。

最底层是将实体世界比特化的“数据”。二进制存储技术、文件结构以及数据库解决的便是“数据”的问题,今天则已进入“大数据”时代。搜索引擎此时比拼的是数据索引量和搜索结果集的大小。

数据上一层则是信息,数据是更底层是给机器的,信息则是给人读的,有逻辑有决策参考价值,数据处理之后便成为信息,信息革命的说法正是印证了互联网的核心是信息。这时候搜索引擎核心是精准地连接人与信息。

信息上一层就是知识,信息中有价值的部分沉淀下来与人类积累的知识体系融合在一起,就成为互联网的知识。WIKI百科、百度知道和知乎这些产品本质上都是围绕知识在转。信息过载成为人类负担,知识沉淀则成为人类的财富。互联网知识图谱远超图书馆等传统的知识沉淀方式,价值十分可观。搜索引擎在知识时代的价值则是帮助人们找到准确的答案。

知识再往上是智慧。人类基于知识,根据物理世界规律找到的解决实际问题的能力被归纳为智慧。知识是“我知道什么”还不足以解决“做什么、如何做”这样的问题,不乏有人满腹经纶但在生活和滚工作中缺乏智慧。但智慧与知识相辅相成,智慧让知识更加丰满,知识则是智慧的前提。

我们已经从信息时代进入到知识时代。在信息过载的大背景之下,在互联网侵蚀实体世界的趋势下,解决现实世界的实际问题更加重要。搜索引擎的使命转变为连接人与服务,而不再只是连接信息,它需要准确地回答人们的实际问题,给人们提供完备的服务。知识图谱成为智慧搜索的基石。

二、知识图谱改变搜索引擎

知识图谱(Knowledge Graph)被称为科学知识图谱,“它显示知识发展进程与结构关系的一系列不同图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系”。

简单说,知识图谱是搜索结果体系化、关联化和可视化,任何一个搜索请求都能得到一个知识体系,不再只是线性的网址列表,而是网状知识结点,譬如搜索“小时代”便可看到角色关系图,搜索地名则可以看到地图、天气、旅游景点等关联信息。

知识图谱带来几个改变。一是结果更加准确。用户搜索关键词可能有多重意思,知识图谱可以展示最全面的信息,更有机会命中用户需求;二是结果包括全面的摘要,《小时代3》图谱便可看到关联的演员、作者介绍甚至微博相关话题;三是搜索更广更深,通过知识图谱建立的关系让用户可以通过互动、点击拓展搜索的深度和广度。

更准、更广、更深的搜索是百度一直在追求的目标。尤其是在大力发展移动搜索的当下,更是需要让搜索做到精准无比,以降低用户输入和选择成本。当百度极简首页上线,无需用户选择频道时,它的结果必然要足够精准和全面,击中用户需求才行,知识图谱的能力正在于此。

本次知识图谱的可视化展现,是通过百度内部前端开源产品Echarts实现的。

《小时代3》知识图谱上线、tupu.baidu.com域名出现以及百度极简首页上线这几个迹象则表明,百度即将大力进军知识图谱。

三、与Google、Bing和Facebook知识图谱的不同思路

在技术上Google和Bing一直与百度分庭抗礼,在知识图谱上,三家都有着很强的积累。去年社交巨头Facebook也推出Graph Search进入社交图谱搜索。

Google在2012年推出知识图谱产品,不管用户搜索的关键词是代表了地标、名人、城市、球队名、电影、专业词语还是一种菜的做法,Google 的“知识图谱”都可以将搜索结果的知识体系完整的呈现出来。此外,Google有Search Plus Your World这一结合Google+的社交搜索产品。

Bing在中国推出了人立方社交人际关系搜索引擎,你可以查看一个人名的热度,TA的关系网络图,TA最亲密的好友,这款产品基于全网WEB数据以及新浪微博的开放数据。由于只能搜索人际关系,与其他知识分离了,因此人立方并没有什么起色。

随着Facebook GraphSearch的推出,Bing将知识图谱与社交网络结合起来的定位显然是尴尬的。因为Bing并没有自己的社交数据——在Space和MSN均宣告失败的情况下。

Facebook Graph Search是基于社交图谱的搜索,可以搜索“洛杉矶XX街道最近一年接待我的朋友最多的餐厅”这样的问题。GraphSearch没有大获成功,因为Facebook只有封闭的社交数据,基于这些数据能够组织的知识,能够给出的结果,能够满足的搜索场景都十分有限,它只是一款过得去的站内搜索。

Bing和Facebook的在图谱搜索上的失利说明了社交既非必要条件亦非充分条件。Google和百度完全从搜索出发基于十多年沉淀的知识图谱、用户数据,利用擅长的大数据和深度学习算法,反而可以把知识图谱做得更加全面、精准和完备。

和百度在知识图谱探索上还是会有所不同。Google知识核心来自WIKIPEDIA、Freebase等网站,百度05年左右开始的UGC知识产品战略,使之拥有强大的自有知识图谱,分别来自百科、知道和贴吧这些产品的数亿条数据和关系。目前百度的知识图谱已经涵盖十几大领域,数十个类别,拥有上亿实体量。通过构建宏大的知识网络,整合碎片化信息,再以图文并茂的方式展现出来,人们便可以在轻点鼠标的片刻,迅速获取知识、找到所求。

值得一提的是,自今年以来,百度在搜索结果页上频出新产品,除了人物关系图谱外,在有焦点事件如汤唯订婚等新闻发生时,搜索结果右侧便会呈现出相关人物关系的智能推荐;每逢世界杯等重大赛事活动举办时,即时更新的时间脉络图谱也会清晰展现在右侧;而用户搜索“故宫”、“颐和园”等景区,可直接得到景点地图、人群分布图、周边交通信息、景点推荐等信息……

众所周知,知识图谱对“语义识别”技术门槛极高,对社会化开源内容有很强的支撑需求,且是依赖大量用户的行为数据库的产品形态。百度搜索本身就是一个大数据来源,同时百度还拥有来自像百度百科、百度知道、百度文库等产品的多方面数据支持,这些共同将百度打造成一个数据航母战斗群,促使百度能够在一年时间里完成了近百亿实体知识图谱的构建并且实现了平台化,这样百度知识图谱就能够快速切换支撑多个产品的发展。

知识图谱可以让用户得到全新的搜索体验,让用户更快速接近答案和服务。笔者思考的一个问题是:继阿拉丁之后,知识图谱是更强大的用户需求满足方式吗?

转自   

http://luoochaoo.blog.techweb.com.cn/archives/391.html



一.介绍(Introduction) 1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。  输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。  可访问 http://www.xunta.so立即体验. 2.什么是搜人引擎?  这里的搜人不是人肉搜索,而是用户根据自己的兴趣和爱好输入相关知识点,然后找到这个知识点上的达人。 3.XunTa上的延伸  XunTa允许对每个人名下的数量无限制的关键词单独打分,从而实现基于“评价图谱”和“知识图谱”的好友匹配与信息推荐。 二.XunTa技术特点  1.在架构上内生地支持增量式实时搜索。  2.除达人搜索外,还提供最新搜索。  3.经过长期测试,性能稳定,速度快 三.布署方法  1. 软件包解压后可看到以下文件目录结构:  xunta_v1.0   |---demo    可直接布署到Tomcat的项目war包   |---luceneIndex  索引文件夹,下面放置Lucene4.3版本的索引文件,存放了XXX条来自社交网站的“发言”数据。   |---XunTa   XunTa项目源代码,可导入Eclipse(javaEE版)并运行。   |---readme.txt  您正在看的该说明文件。  2. Tomcat下直接体验XunTa搜人引擎   a.将索引文件夹luceneIndex_new复制到D盘根目录下   b.将 XunTa.war 复制到Tomcat的webapps目录下   c.启动Tomcat,然后在浏览器地址栏输入 http://localhost:8080/XunTa 可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。   (Tomcat的安装这里不另说明。)  3. 在myEclipse下导入源代码   a.xunta文件夹下放的是项目源文件,可直接导入myEclipse生成一个名为“xunta”的项目,   b.xunta\LocalContext\so\xunta\localcontext目录下的LocalContext.java是配置项目索引文件路径的类,默认是d:\\luceneIndex\\travel.     如果索引文件夹luceneIndex_new没有复制到D盘根目录下,则要修改默认路径.   c.启动myEclipse中的Tomcat7,然后在浏览器地址栏输入 http://localhost:8080/XunTa 即可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。 四.其它  1. 用户可按Lucene4.3标准自行创建索引数据,索引文档的结构可下载lukeall工具来查看.  2. 用户也可使用与XunTa配套的社交信息实时抓取工具来生成索引数据。它通过配置模版的方法抓取网页数据,也可以通过API获得目标网站的数据。该工具整理好亦将上载到开源社区。如急需,可向我们索取。  3. 你可以通过试用下面的网站来测试部分功能。 遇到任何技术问题,或对搜索创意感兴趣,欢迎加入寻TA网官方QQ群(298342166)讨论,也可发邮件(Email:1019357922@qq.com)或致电(18521702948,13817385089)垂询. 下载并使用该开源代码,表明您同意并遵守CC-BY-SA 3.0协议和GNU自由文档许可证.您可以上述协议条款下修改和再使用。 标签:(一种用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值