数据开放 数据集_您可以使用开放数据做什么?

数据开放 数据集

玩单词联想游戏,单词“ open”几乎肯定会跟随“ source”。 开源无疑是维护用户自由和访问计算的重要力量。 但是,代码并不是唯一重要的开放形式。

打开数据

开放数据已经讨论了至少十年。 在2007年的OSCON会议上,蒂姆·奥雷利(Tim O'Reilly)提出了一点混乱,他建议开放数据实际上可能比开放代码更重要。 在这种情况下,开放数据主要是指导出用户创建的“ Web 2.0”数据的能力,这在当时变得很重要。 当时,Sun Microsystems的Tim Bray 在他写道

归根结底,信息比软件更胜一筹,超越软件,比软件更有价值。

同时,开放数据的其他方面也开始崭露头角,包括对公共数据源的访问。 即使公共数据已经可供研究人员和其他人使用,但通常并非以可以自由方便地访问的形式提供。 例如,当我大约在那时使用美国地质调查局的河流信息时,我发现我需要做一些复杂的网页抓取工作才能将信息转化为可以导入程序的表格。 许多其他类型的数据根本无法在线获得。

这开始有系统地改变。 2009年5月,时任美国首席信息官Vivek Kundra成立了Data.gov 。 反过来,这导致了2013年的行政命令 ,“将开放的机器可读数据作为政府信息的新默认值”。 许多州和市政当局还扩大了它们提供的数据。 2016年3月, 白宫启动机会项目 ,重点关注以有用方式可视化和使用公共数据的工具。 美国八个城市-巴尔的摩,底特律,堪萨斯城(密苏里州),新奥尔良,纽约,费城,旧金山和华盛顿特区-目前正在参与该项目。

这些数据集中有许多表示特定位置的事件,度量或物理对象。 正如我之前所写 ,可以通过使用来自OpenStreetMap之类的源中的地图数据并将其嵌入到具有Leaflet这样的Javascript库的网页中来可视化此类数据。

为了使事情更具体,让我们来看一个特定城市的数据 :马萨诸塞州的剑桥。 剑桥提供了160个数据集。 其中包括健康检查数据,事故,犯罪报告,人口普查信息,城市维护的树木,坑洼维修请求等等。

数据可以多种格式(JSON,XML,CSV)下载。 使用哪种将取决于您的首选项,以及您是要以编程方式还是以更典型的最终用户工具(例如电子表格)使用数据。 您会注意到,尽管通常需要使用地理编码/地理编码数据库将街道地址转换为地理坐标(即纬度和经度),然后使用上述Leaflet和OpenStreetMaps进行显示,但许多数据确实都指向位置。 Nominatum是OpenStreetMaps数据的搜索引擎。 其他选项包括Google地图。

但是,您的数据探索不必局限于在地图上钉针。 想象使用各种各样的统计技术和可视化方法对不同数据集进行更复杂的聚合和关联并不难。 ( D3.js是一个非常流行的Javascript库,用于处理基于数据的文档,并且是一种功能强大的工具,可以通过视觉上吸引人的方式和真实见解的来源来显示数据。)例如,想象一下如何利用城市服务在整个城市的不同社区中提供; 这些模式可以成为基于证据的数据新闻的基础。

就是说,在这一点上值得警告的一点是,开放数据与来自任何其他来源的数据会受到相同的误解和滥用。 了解您使用的任何数据集的来源和局限性。 通常,可信赖的来源提供的开放数据范围越来越广,这些数据是使用相对严格的技术收集的。 但是,即使是这类数据也会过时-或可能只是基于快速的初始外观而无法传达您认为的信息。

还应注意与汇总不同规模数据相关的潜在陷阱,以及与证明因果关系相关的更广泛的问题。 在为空间可视化汇总数据时,需要格外小心。 例如,如果您汇总数据和颜色代码以按人口普查区或城市病房显示某些活动的水平,则该水平可能受该区的人口或规模的影响更大,而不是受到基础人口比率的实际差异的影响。活动。

越来越多的数据和其他信息以易于使用且不受使用限制的方式提供。 除了上面我介绍过的各种地方政府数据外,例如,还扩大了公众对联邦资助研究结果的访问 。 在诸如此类的领域中,开放数据特别重要,因为它可以增进协作并在其他人的工作基础上进行开发,就像开源开发模型的成功实践一样。

翻译自: https://opensource.com/business/16/5/what-can-you-do-open-data

数据开放 数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值