sparql和elasticsearch构建知识图谱搜索引擎

9 篇文章 0 订阅
9 篇文章 0 订阅

sparql和elasticsearch构建知识图谱搜索引擎是最新实验室的给mooc中国的项目的主要技术

给mooc中国做的知识图谱,先吐槽一番再说,学校在划水,老师不关心,自己没补助。当作自己学习一下知识吧。

elasticsearch是之前使用的全文检索工具,在速度上很快,分布式具有优势。sparql是rdf的标准检索语言,我们使用的数据库是jena,虽然有点慢,但目前数据量比较小,他们也发现不了。


整体框架:图谱构建、图谱存储、图谱搜索、图谱可视化

图谱构建: 主要采用之前一个师兄的c语言的知识点数据,然后爬取了百度百科的数据,然后根据分面(实验室的一个概念)建立子节点。知识点间的关系主要通过文本相似度来确定,就是图谱中的一些点和点的关系,这样图谱就构建好啦。(ps:知识图谱的来源划水会导致后面没法增加更好的功能,没和充分利用图谱优势)

图谱存储: 就是把mysql数据库中的数据导入rdf数据库jena中,主要就是设计存储好模式就好啦。

图谱搜索:

  1. 主要进行知识点的搜索,为了提高速度,并没有使用sparql的regex匹配,采用把知识点的id和名称存入到ES中,检索时候得到的是知识点的id,这样就可以进行第二步的sparql查询
  2. sparql查询,在jena引擎中,存储采用的是jena的TDB,之后打算使用fuseki,可以将rdf数据库TDB共享出去,理论上速度也会提升,毕竟成为了一个服务,在事务和线程上都有优势。
  3. 得到结果,将数据通过restful API传输到前台。
  4. PS:全用的java。

图谱可视化:echars的关系图表,加上压力布局。


总体而言,实验室的这个项目有点水,或许可以管中窥豹,学校就是这样,真正能学到什么全是靠自己

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
一.介绍(Introduction) 1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。  输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。  可访问 http://www.xunta.so立即体验. 2.什么是搜人引擎?  这里的搜人不是人肉搜索,而是用户根据自己的兴趣和爱好输入相关知识点,然后找到这个知识点上的达人。 3.XunTa上的延伸  XunTa允许对每个人名下的数量无限制的关键词单独打分,从而实现基于“评价图谱”和“知识图谱”的好友匹配与信息推荐。 二.XunTa技术特点  1.在架构上内生地支持增量式实时搜索。  2.除达人搜索外,还提供最新搜索。  3.经过长期测试,性能稳定,速度快 三.布署方法  1. 软件包解压后可看到以下文件目录结构:  xunta_v1.0   |---demo    可直接布署到Tomcat的项目war包   |---luceneIndex  索引文件夹,下面放置Lucene4.3版本的索引文件,存放了XXX条来自社交网站的“发言”数据。   |---XunTa   XunTa项目源代码,可导入Eclipse(javaEE版)并运行。   |---readme.txt  您正在看的该说明文件。  2. Tomcat下直接体验XunTa搜人引擎   a.将索引文件夹luceneIndex_new复制到D盘根目录下   b.将 XunTa.war 复制到Tomcat的webapps目录下   c.启动Tomcat,然后在浏览器地址栏输入 http://localhost:8080/XunTa 可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。   (Tomcat的安装这里不另说明。)  3. 在myEclipse下导入源代码   a.xunta文件夹下放的是项目源文件,可直接导入myEclipse生成一个名为“xunta”的项目,   b.xunta\LocalContext\so\xunta\localcontext目录下的LocalContext.java是配置项目索引文件路径的类,默认是d:\\luceneIndex\\travel.     如果索引文件夹luceneIndex_new没有复制到D盘根目录下,则要修改默认路径.   c.启动myEclipse中的Tomcat7,然后在浏览器地址栏输入 http://localhost:8080/XunTa 即可看到XunTa主页.在搜索框中输入关键词即返回“达人”列表。 四.其它  1. 用户可按Lucene4.3标准自行创建索引数据,索引文档的结构可下载lukeall工具来查看.  2. 用户也可使用与XunTa配套的社交信息实时抓取工具来生成索引数据。它通过配置模版的方法抓取网页数据,也可以通过API获得目标网站的数据。该工具整理好亦将上载到开源社区。如急需,可向我们索取。  3. 你可以通过试用下面的网站来测试部分功能。 遇到任何技术问题,或对搜索创意感兴趣,欢迎加入寻TA网官方QQ群(298342166)讨论,也可发邮件(Email:[email protected])或致电(18521702948,13817385089)垂询. 下载并使用该开源代码,表明您同意并遵守CC-BY-SA 3.0协议和GNU自由文档许可证.您可以上述协议条款下修改和再使用。 标签:(一种用
系统? 对于如何构建知识图谱智能问答系统的问题,我可以给出一些简要思路,但需要说明的是,这只是一种建议,具体实施方式可能因项目需求和数据限制而有所不同。 首先,我们需要将相关领域的知识进行分类和编码,以形成一个结构化的知识图谱。这个过程可以通过自然语言处理技术(如分词、词性标注、实体识别等)和网络爬虫获取信息来实现。具体实现方式可以参考知识图谱的概念、技术和工具。 接着,我们需要将自然语言问题转化为特定的查询语言,以查询知识图谱中与问题相关的信息。目前常用的查询语言包括SPARQL和Cypher等。这个过程可以通过自然语言理解技术和创建问答模板来实现。具体实现方式可以参考自然语言处理技术和数据挖掘技术。 最后,我们需要将查询结果转化为自然语言回答,以实现智能问答系统的目标。这个过程可以通过应用自然语言生成技术和模板匹配来实现。具体实现方式可以参考自然语言处理技术和语音合成技术。 需要强调的是,构建知识图谱智能问答系统需要丰富的领域知识、高效的自然语言处理技术、先进的机器学习算法支持,以及足够规模的语料库和知识库支持。因此,这是一个十分复杂和技术密集的工程。但是,一旦实现,它可以为用户提供方便、高效和准确的信息查询体验,对于提升用户体验和满意度具有重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值