开源 数据查询 工具_6个用于数据新闻的开源工具

开源 数据查询 工具

当我1980年代末期在新闻学院上学时,收集一个故事的数据通常需要花大量时间浏览打印的文档或缩微胶片。

从那以后很多事情改变了。 尽管印刷资源仍然有用,但越来越多的信息可供网络记者使用。 这助长了后来被称为数据新闻业的繁荣。 从最基本的意义上讲,数据新闻业是使用数据(例如普查数据,犯罪统计数据,人口统计数据等)查找和讲述故事的行为。

有许多功能强大且昂贵的工具,使记者能够收集,清理,分析和可视化其故事的数据。 但是,许多规模较小或陷入困境的新闻机构,更不用说独立记者了,不必为这些工具预算。 但这并不意味着他们会冷落。

有许多可靠的开源工具可供数据记者使用,既高效又令人印象深刻。 本文着眼于六个工具,可以帮助数据记者获得他们所需的信息。

抓取数据

记者在网上找到的许多数据可以下载为电子表格或CSV或PDF文件。 但是网页中嵌入了很多信息。 与其手动复制和粘贴信息,不如说新闻记者使用的每一个数据都是一个小技巧。 爬取是使用自动化工具来获取嵌入在网页中的信息的行为,通常是HTML表格的形式。

如果您或您组织中的某个人有技术方面的想法,那么Scrapy可能是适合您的工具。 Scrapy用Python编写,是一种命令行工具,可以快速从网页中提取结构化数据。 Scrapy的安装和设置有点挑战,但是一旦安装和运行,您就可以利用许多有用的功能 。 精通Python的程序员也可以快速扩展这些功能。

电子表格是数据记者的基本工具之一。 在开源世界中, LibreOffice Calc是使用最广泛的电子表格编辑器。 Calc不仅用于查看和处理数据。 通过利用其“ 网页查询”导入过滤器,您可以将Calc指向包含表中数据的网页,并获取页面上的一个或所有表。 尽管它不如Scrapy快或高效,但Calc可以很好地完成工作。

处理PDF

无论是偶然还是设计使然,网络上的许多数据都被锁定在PDF文件中。 这些PDF中有许多都可以包含有用的信息。 如果您已经完成了PDF的任何工作,那么您就会知道,从PDF中获取数据可能会很麻烦。

那就是DocHive(由Raleigh Public Record开发的一种用于从PDF提取数据的工具)出现的地方。DocHive可以处理从扫描文档创建的PDF。 它分析PDF,将其分成小块,然后使用光学字符识别读取文本并将文本注入CSV文件。 在本文中阅读有关DocHive的更多信息。

Tabula与DocHive相似。 它旨在获取PDF中的表格信息并将其转换为CSV文件或Microsoft Excel电子表格。 您需要做的就是在PDF中找到一个表格,选择表格,然后让Tabula完成其余的工作。 快速高效。

清理数据

通常,您要获取的数据可能包含拼写和格式错误或字符编码问题。 这使得数据不一致且不可靠,并使得清理数据至关重要。

如果您的数据集很小(其中包含几百行信息),则可以使用LibreOffice Calc和您的眼睛进行清理。 但是,如果您有较大的数据集,则手动执行此工作将是一个漫长,缓慢且效率低下的过程。

相反,请转到OpenRefine 。 它使处理和清除数据的过程自动化。 OpenRefine可以对您的数据进行排序,自动查找重复的条目,并对数据进行重新排序。 OpenRefine的真正力量来自各个方面。 方面就像电子表格中的过滤器一样,可让您放大特定的数据行。 您可以使用构面来找出空白单元格并复制数据,以及查看某些值在数据中出现的频率。

OpenRefine可以做的还不止这些。 您可以通过浏览文档了解OpenRefine的功能。

可视化数据

拥有数据并用它编写故事是件好事。 尝试汇总,交流和理解数据时,基于该数据的良好图形可能会有所帮助。 这就解释了信息图表在网络和印刷中的流行。

您无需成为图形设计向导即可创建有效的可视化效果。 如果您的需求不太复杂, Data Wrapper可以创建有效的可视化。 它是一个在线工具,将创建可视化过程分为四个步骤:从电子表格复制数据,描述数据,选择所需的图像类型,然后生成图形。 使用Data Wrapper不会获得广泛的图像类型,但是这个过程再简单不过了。

显然,这并不是开源数据新闻工具的详尽列表。 但是,本文中讨论的工具为预算不高的新闻机构,甚至是无畏的自由职业者,提供了一个可靠的平台,可以使用数据生成故事创意并备份这些故事。

翻译自: https://opensource.com/life/14/7/6-open-source-tools-data-journalism

开源 数据查询 工具

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值