数据连接-Silk简介

Silk:数据链接集成框架

Silk是一个用于集成异构数据源的开源框架。Silk的主要用途包括:

  1. 生成不同关联数据源中相关数据项之间的链接。
  2. 关联数据发布者可以使用Silk将RDF链接从其数据源设置为Web上的其他数据源。
  3. 将数据转换应用于结构化数据源。

Silk基于Linked Data范例,它基于两个简单的想法:首先,RDF提供表达结构化信息的表达数据模型。其次,RDF链接在不同数据源中的实体之间设置。关于关联数据的背景信息和数据网的愿景可以在概述文章 Linked Data - The Story So FarLinked Data book.中找到。

链接数据源

使用声明性Silk-Link规范语言(Silk-LSL),开发人员可以指定在数据源之间应该发现哪些类型的RDF链接,以及数据项必须满足哪些条件才能相互链接。这些链接条件可以组合各种相似性度量,并且可以考虑数据项周围的图,这使用RDF路径语言来解决。Silk访问应通过SPARQL协议链接的数据源,因此可用于本地和远程SPARQL端点。链接规范可以使用Silk Workbench图形用户界面创建,也可以使用XML手动创建。

https://i-blog.csdnimg.cn/blog_migrate/b9cb0a7ea7618579a30760b10657bc3e.png

链接过程基于Silk Link Discovery Engine,它提供以下功能:

 

  1. 用于指定链接规则的灵活的声明性语言
  2. 支持RDF链接生成(owl:sameAs链接以及其他类型)
  3. 在分布式环境中使用(通过访问本地和远程SPARQL端点)
  4. 适用于来自不同词汇表的术语混合且不存在一致的RDFS或OWL架构的情况
  5. 通过高效的数据处理实现可扩展性和高性能(与Silk 0.2相比,加速因子为20):
  • 通过缓存和重用SPARQL结果集减少网络负载
  • 数据项比较的多线程计算(Core2 Duo上每分钟300万次比较)
  • 可选阻止数据项

数据转换

虽然集成工作流程的主要部分在于数据源的链接。来自不同来源的数据集有时需要在互连之前协调模式和数据格式。为此,Silk使用户能够创建和执行轻量级转换规则。转换规则可用于:

  1. 数据清理,例如,删除不需要的值
  2. 在不同属性之间进行映射或使用生成的值添加新属性。
  3. 在不同数据格式之间转换。数据可以从诸如RDF,CSV或XML之类的源读取。通常,输出将写入可以使用SPARQL查询的RDF存储,但也可以将数据写入CSV以导入关系数据库或在Excel中打开。

https://i-blog.csdnimg.cn/blog_migrate/08d4f3e5ff4d1ed41edb54e82fc29ff1.png

 

Silk Workbench

Silk Workbench是一个Web应用程序,它引导用户完成链接不同数据源的过程。

Silk Workbench提供以下功能:

  1. 它使用户能够管理不同的数据源集,链接任务和转换任务。
  2. 它提供了一个图形编辑器,使用户可以轻松创建和编辑链接任务和转换任务。
  3. 由于找到一个好的链接启发式通常是一个迭代过程,Silk Workbench使用户可以快速评估当前链接规范生成的链接。
  4. 它允许用户创建和编辑用于评估当前链接规范的一组参考链接。

Wiki中 提供了Silk Workbench的文档。

 

Silk命令行应用程序

除了Workbench之外,Silk还提供了三种不同的命令行应用程序来执行链接规范:

  1. Silk Single Machine用于在单台机器上生成RDF链接。应该相互链接的数据集可以驻留在同一台机器上,也可以驻留在通过SPARQL协议访问的远程机器上。Silk Single Machine提供多线程和缓存。此外,使用MultiBlock阻塞算法进一步增强了性能。
  2. Silk MapReduce用于使用多台机器的集群在数据集之间生成RDF链接。Silk MapReduce基于Hadoop,例如可以在Amazon Elastic MapReduce上运行。Silk MapReduce通过将链接生成分发到多台机器,使Silk能够扩展到非常大的数据集。
  3. Silk Server可用作从Web使用关联数据的应用程序中的标识解析组件。Silk Server提供HTTP API,用于匹配传入的RDF数据流中的实体,同时跟踪已知实体。它可以与Linked Data爬虫一起使用,以使用来自Web的数据填充本地无重复缓存。

 

Silk Free Text预处理器

自由文本预处理工具的主要目标是生成包含自由文本或从自由文本派生的数据的结构化表示。该工具将RDF文件作为输入,该文件具有带自由文本值的属性和包含用于学习提取模型的结构化数据的附加RDF文件。基于学习的模型,该工具从自由文本中提取新的属性 - 值对。结果输出是包含提取的结构化值的RDF转储文件。使用基于XML的声明式语言,用户可以指定要使用的提取方法。

Wiki中 提供了Silk Free Text预处理器的文档。

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值