Textricator:数据提取变得简单

您可能知道这种感觉:您需要数据并得到积极的回应,只是打开电子邮件并找到一大堆PDF。 数据中断。

我们了解您的无奈,并为此做了一些工作: 我们推出了第一个开源产品Textricator

我们是刑事司法研究和透明度组织的司法措施。 我们的任务是为从逮捕到定罪的整个司法系统提供数据透明性。 为此,我们制定了一系列多达32个绩效衡量指标,涵盖每个县的整个刑事司法系统。 我们以多种方式获取数据-当然都是合法的-尽管许多州和县级机构都精通数据,从而以CSV格式提供了高质量的格式化数据,但这些数据通常捆绑在软件中,没有简单的获取方法。 PDF报告是他们所能提供的最好的报告。

开发人员Joe Hale和Stephen Byrne在过去两年中一直在开发Textricator,以提取成千上万页的数据供我们内部使用。 Textricator可以处理几乎任何基于文本的PDF格式-不仅可以处理表格,还可以处理复杂的报表,这些报表可以包装从Crystal Reports等工具生成的文本和详细信息部分。 只需告诉Textricator您要收集的字段的属性,它就会整理文档,收集并写出您的记录。

不是软件工程师? Textricator不需要编程技能; 而是由用户描述PDF的结构,Textricator处理其余部分。 大多数用户是通过命令行运行它的。 但是,可以使用基于浏览器的GUI。

我们评估了Tabula等其他出色的开源解决方案,但它们只是无法处理我们需要抓取的某些PDF的结构。 “ Textricator既灵活又强大,并且将我们处理大型数据集所花费的时间从几天缩短到了几小时,”技术总监安德鲁·布兰奇(Andrew Branch)说。

在MFJ,我们致力于透明度和知识共享,其中包括将我们的软件提供给任何人,尤其是那些试图公开免费共享数据的人。 Textricator在GitHub上可用,并根据GNU Affero通用公共许可证版本3发布

您可以在免费的在线数据门户上查看我们的工作结果,包括通过Textricator处理的数据 。 Textricator是我们流程的重要组成部分,我们希望市民技术和政府组织都可以使用此新工具解锁更多数据。

如果您使用Textricator,请让我们知道它如何帮助解决您的数据问题。 想要改善吗? 提交拉取请求。

翻译自: https://opensource.com/article/18/7/textricator

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值