karma 持续集成_与Karma进行开源数据集成

karma 持续集成

Karma是一个免费的开源数据集成工具,可轻松将各种格式的数据转换为链接的数据。

我最近与我们的讲师Pedro Szekely一起参加了为期半天的业力研讨会。 他首先警告我们,他对图书馆知之甚少,但对数据知之甚少。 如果您有兴趣查看我们的研讨会文件,请访问GitHub 。 您可以按照Wiki上的教程步骤进行操作,当然,您也可以在GitHub上找到Karma本身。

基础

Karma是一种基于Web的工具,可以在您的计算机上同时运行服务器和浏览器,因此我们可以在装有计算机的计算机上使用该工具。

用户加载其应用程序的本体以及每个要转换为Karma的数据文件的数据样本。 Karma通过提供直观的图形用户界面来可视化和编辑数据文件到本体的映射,从而使转换过程变得容易。

Karma具有灵活性,因为它可以从多种数据格式(SQL,XML,JSON,CSV,Excel,AVRO,Web服务)导入数据。

业力可扩展到非常大的数据集(4000万个文档,十亿个三倍),并且可以定期(例如每小时)刷新。

动手

研讨会的其余部分是与Karma的动手经验。

在将一些样本数据加载到Karma之后,我们将其映射到一些本体。 例如,在单击标题字段时,Karma甚至为我们提供了四个可能需要映射到标题的建议。 它知道如何提出此建议,因为该工具可以学习(即使您过去犯过映射错误)。 如果您经常使用相同类型的数据,则可以节省大量时间。 佩德罗确实提醒我们,业力并不知道正确的映射,用户可以选择他们想要的任何东西-即使它是“错误的”。

输入数据后,您可以根据需要使用Python脚本进行清理。 每一列在菜单中都有一个“ PyTransform”选项。 我个人从来没有编写过Python,但是看起来很简单,Pedro向我们保证,在他使用Karma之前,他还不了解Python,但是发现在StackOverflow上已经有人问过他所有的问题。

处理完数据后,您可以生成RDF,MySQL,JSON或许多其他格式以用于Web应用程序。

当我们在列中编辑数据时,Pedro对我们必须选择的一个选项发表了非常有趣的评论。 他说“永远不要这样做”,当被问到这是一个选择时,他说“因为有人要我们添加它”。 当我教人们如何使用开放源代码工具时,我发现这个问题的答案完全相同。 开源充满了功能,仅仅是因为有人要求它。

结论

在这次研讨会之后,我了解到,业力非常强大! 我们那里杂乱无章的数据太多,以至于像这样的工具非常方便-当然,它是开源的,这使其更具吸引力。 我还了解到,每天可能不会真正使用像Karma这样的工具,但是我认识很多人,我希望这个总结对他们有所帮助。

链接/资源

翻译自: https://opensource.com/business/15/5/open-source-data-integration-karma

karma 持续集成

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值