Silk框架—silkframework.org—集成异质数据源的开源框架
官网简介
主要功能:
1、-在不同数据源中的相关数据项之间生成链接。
2、-链接的数据发布者可以使用Silk设置从其数据源到Web上其他数据源的RDF链接。
3、-将数据转换成结构化数据源:
1)数据清洗,比如移除不需要的值
2)不同属性之间的映射或者为新增加的属性生成值
3)在不同数据格式之间转换。数据可以从诸如RDF,CSV或XML之类的源读取。通常,输出将写入可以使用SPARQL查询的RDF存储,但也可以将数据写入CSV以导入关系数据库或在Excel中打开。
框架概括图
提供三种不同的demo
- Silk Single Machine用于在单台机器上生成RDF链接。应该相互链接的数据集可以驻留在同一台机器上,也可以驻留在通过SPARQL协议访问的远程机器上。 Silk Single Machine提供多线程和缓存。此外,使用可选的阻止功能可以进一步增强性能。
- Silk MapReduce用于使用多台机器的集群在数据集之间生成RDF链接。 Silk MapReduce基于Hadoop,例如可以在Amazon Elastic MapReduce上运行。 Silk MapReduce通过将链接生成分发到多台机器,使Silk能够扩展到非常大的数据集。
- Silk Server可用作从Web使用关联数据的应用程序中的标识解析组件。 Silk Server提供HTTP API,用于匹配传入的RDF数据流中的实例,同时跟踪存在的实体。它可以与Linked Data爬虫一起使用,以使用来自Web的数据无重复缓存填充本地数据。
项目运行 - 指定需要连接的库(Silk-LSL配置文件);运行模型;根据配置文件配置的位置查看输出的链接文件
- 加载阶段(加载链接规则和需要连接的数据库);链接生成阶段
- 开启服务器,向服务器请求
可以扩展项目(最常见的接口扩展):增加转换器(数据转换成结构化数据);增加距离度量方式(链接实体时的依据)
提供开发API(未更新完)
API使用方式:使用Maven构建系统 ;通过使用silk.jar;通过下载源代码
链接发现:输入(链接规则,数据),输出(能够链接的实体)
评估任务:输入(链接规则,参考规则),输出(评估结果)
学习任务:输入(训练链接):输出(链接规则)