知识融合开源工具Falcon-Ao和LIMES

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】

文章链接:https://mp.weixin.qq.com/s/h-39Cuhubzg6X9ynC1phXA

 

Falcon-Ao

图片

是一个基于Java的自动本体匹配系统,已经成为 RDF(S) 和 OWL 所表达的 Web本体 相匹配的一种实用和流行的选择。

原理简介:https://mp.weixin.qq.com/s/NhZqwmiDhQGbDjuonwMWMw

官网链接:http://ws.nju.edu.cn/falcon-ao/

代码下载链接:http://ws.nju.edu.cn/falcon-ao/res/falcon.zip

论文下载链接:http://ws.nju.edu.cn/falcon-ao/pub/Hu.JWS.2008.pdf

论文阅读笔记:https://app.yinxiang.com/fx/c0b33b28-f204-4def-8e71-7f33eaf17139

用法:【目前没用起来,原因如下】

1、关于用法,目前我们能下载到的只有官方发布的Java代码,并没有一个文档来告诉我们该怎么去使用Falcon-AO;

2、官网Falcon-AO发布平台链接访问不到:http://seals.inrialpes.fr/platform/;

3、官网服务链接访问不到:http://219.219.116.154:8083/falconWS?wsdl;

4、已发邮件给作者进行求教,如果后续有收到回馈,可继续进行实践。

 

LIMES

图片

实体关系发现框架LIMES用法

原理简介:https://mp.weixin.qq.com/s/Ie2nt0zOi2VK97x4jXYUwA

资源链接:http://www.openkg.cn/dataset/limes-tutorial

调通的程序下载链接:https://share.weiyun.com/l3gNKqpg【没加密哦,自取图片

使用教程可详细查看:tutorial-limes.pdf【我们只要按照上面的步骤一步步执行即可,其中一些可能要注意的点可细看下文一、二部分】

 

一、我服务器上一些环境配置 【注】仅供参考,其余环境可根据自己需求进行调整。

  • mvn -v

    • Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-11T00:41:47+08:00)

    • Maven home: /usr/local/apache-maven-3.3.9

    • Java version: 1.8.0_265, vendor: Private Build

    • Java home: /usr/lib/jvm/java-8-openjdk-amd64/jre

    • Default locale: en_HK, platform encoding: UTF-8

    • OS name: "linux", version: "4.4.0-131-generic", arch: "amd64", family: “unix"

  • java -version

    • openjdk version "1.8.0_265"

    • OpenJDK Runtime Environment (build 1.8.0_265-8u265-b01-0ubuntu2~16.04-b01)

    • OpenJDK 64-Bit Server VM (build 25.265-b01, mixed mode)

 

二、注意事项

  • 运行 mvn clean install 和 mvn clean package shade:shade -Dcheckstyle.skip=true -Dmaven.test.skip=true 命令后可能无法生成我们想要的 limes-core-VERSION-SNAPSHOT.jar 包。具体原因我不是很清楚,但我个人觉得是因为网络的问题无法成功生成jar包【因为我用公司的网络无法成功执行,但我远程连接我实验室服务器,并在本地机(2M/s)执行后无此类问题】

  • java -jar limes-core-1.7.4-SNAPSHOT.jar config.xml

    其中config.xml是要自己写的配置文件,文件中的内容可根据自己需求进行编写,具体可参考tutorial-limes.pdf。

  • 关于config.xml

    配置文件里面有涉及源数据集S,目标数据集T。我们需要预先下载好,并导入到相应位置中。

    图片

  • 出现的BUG

    图片

    • 解决方案:

      1、Have you tried to run a query against both endpoints? It might be that at that time they were not reachable cause they were overloaded with requests. Also can you please check your proxy/firewall settings?

      2、看看你的数据加载位置有木有写错,有可能程序一直加载不到数据,导致服务不可获取等情况。

 

三、编写配置文件

使用LIME工具进行实习关系融合的关键步骤是配置文件的编写,包括数据源、融合算法、融合条件等信息。

  • 数据源

    1、通过<Source>和<Target>标签指定数据源

    2、数据源可以是SPARQL端点,也可以是本地文件(需要绝对路径)

    3、标签内可以通过<VAR>指定参与实体相似度计算的变量,通过<PAGESIZE>指定<SPARQL>端点每次查询返回的最大Tripe数量以及其他的一些限制和预处理操作

  • 融合算法

    可以通过度量表达式或机器学习算法计算相似度。

    1、通过<METRIC>标签指定度量表达式来计算相似度。多个Mertic Expression可以使用MIN、MAX、ADD操作符结合使用,目前所有操作符只支持两个Expression结合,但可以嵌套。

    2、目前,METRIC支持的原子表达式有:Cosine、ExactMatch、Jaccard、Jaro、Jaro Winkler、Levenshtein、MongeElkan、Overlap、Qgrams、RatcliffObershelp、Soundex、Trigram。

    3、通过<MLALGORITHM>指定机器学习算法自行计算相似度

    (1)通过<NAME>指定选用的算法,支持wombat simple、wombat complete、eagle;

    (2)通过<PARAMETER>制定训练参数。

  • 融合条件

    包括接受条件和复审条件

    1、通过<ACCEPTANCE>指定接受条件,通过<REVIEW>指定复审条件;

    2、两个标签中都需要通过<THRESHOLD>、<FILE>和<RELATION>指定阈值,输出文件路径和实体关系名称;

    3、复审条件与接受条件类似,一般阈值比前者小。对于某些不满足接受的实体对,可根据复审条件输出到另一个文件进行复审。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值