数据城堡_城堡揭示了公开数据的发现

数据城堡

联合国近五年来在全球范围内积极研究和推广政府公开数据。 开放数据研究所坚持认为,开放数据可以帮助“释放供应,产生需求,创建和传播知识以解决本地和全球性问题”。 麦肯锡公司报告说:“由于开放数据,仅七个部门每年就能创造超过3万亿美元的附加值。”

毫无疑问,开放数据是重要的公共政策领域-将会持续存在。 然而,尽管有所有宏伟的承诺,但从头开始,人们发现在地面上到底发生了什么和没有发生的实证性事实非常少,在我们大多数人日益生活和工作的现实世界中。

由欧洲委员会资助的一项耗资400万欧元的Citadel-on-the-Move项目的最新成果开始填补这一空白,尤其是在更好地理解现有开放数据实践方面(相对于最佳实践理论而言)。 城堡立足于坚信开放数据的力量尚未开发。 该项目旨在通过向公务员和公民提供简单易用的开放源代码工具来发布和使用开放数据来释放这种力量。 在这项工作的过程中,城堡随后与来自六大洲的140多个城市进行了合作-在此过程中发现了有关本地开放数据格局的新发现的宝库。

A map of countries surveyed by Citadel-on-the-move

21c Consultancy的原始照片。 CC BY-SA 4.0

第一个主要发现涉及城市的开放数据成熟度:

  • 17%的人以前没有接触过公开数据(没有公开数据)
  • 24%的人没有开放数据的经验(一些数据,但是没有城市门户或系统发布的经验)
  • 47%的人具有一定的开放数据经验(城市门户网站或系统发布的经验,但没有关于开放数据发布和更新的明确政策)
  • 12%的人具有开放数据的高级经验(门户或系统发布以及开放数据发布和更新的政策)

第二个关键发现涉及使用开放数据门户或网站,这些站点向公众提供数据。 10%的城市没有可公开访问的开放数据门户。 在其余的这些中,有17%使用了国家开放数据门户网站,有44%使用了本地开放数据门户网站,还有29%使用了本地和国家门户网站。

Graph showing degrees of open data portal use

21c Consultancy的原始照片。 CC BY-SA 4.0

最终的关键发现涉及用于发布开放数据的格式或文件结构。 调查确定了77种不同的发布格式,从公认的格式到用于表示特定信息类型(例如地理文件)的高度专业化的格式。 最常见的格式是CSV(逗号分隔值),其中62%的人使用它发布了至少一个开放数据文件,其次是XML(可扩展标记语言)和XLS(Microsoft Excel),分别为47%和40%分别。

大多数城市以两种或三种不同的格式出版,反映了它们必须提供的信息范围。 下图显示了使用10种最流行格式的百分比:

Most popular government data formats

21c Consultancy的原始照片。 CC BY-SA 4.0

通过与100多个城市的讨论,Citadel团队Swift了解到,大多数公共部门数据所有者对不同数据格式的相对优势并不十分了解。 因此,除最先进的设备外,其他所有设备都将采用阻力最小的路径,以它们已经拥有的格式发布数据。 尽管这种做法忽略了功能更强大的格式的更大可能性,但它对国际数据标准机构具有许多实际意义。

蒂姆·戴维斯 Tim Davies 对数据标准的出色分析认为 ,在开放数据的早期,许多标准拥护者,包括其初始白皮书中的 The Citadel,都拥护链接开放数据(LOD)(一种将数据表示为一系列数据的方法)。互连的链接),因为它主要通过RDF表示数据的方式可用于构建非常高级的模型和工具。 但是,随着时间的流逝,许多人开始拒绝LOD模型,因为正如我们在The Citadel上的工作发现的那样,创建和使用它非常复杂,因此排除了技术上较不先进的数据所有者。 有一小段时间,它开始看起来好像XML(由W3C创建的一种格式)代表了发布开放数据的更好选择,因为它包含用于组织数据集的强大架构,可以轻松地从标准城市Web门户导出数据,并轻松检索使用数据的应用程序。 但是,由于很难将刚性模式构建到应用程序中,因此过去两年来,XML标准也有所偏离。

最近,开放数据社区已经开始接受这样的观念,即更简单的表格数据格式为尽可能广泛的社区(包括那些像XML这样技术更复杂的格式构成了进入障碍)提供了最好的重用前景。 鉴于这种趋向于扁平化,无模式数据的趋势,近年来,CSV(逗号分隔值)作为发布开放数据的最佳通用格式而受到欢迎。 W3C的技术架构小组目前正在草拟一份有关CSV语法和最佳做法的指南,甚至还宣布2014 年为“ CSV年”。

Citadel与欧洲各地政府的合作以及随后在数据格式方面的发现都支持W3C的立场。 尽管技术社区的某些部分,尤其是致力于推动蒂姆·伯纳斯·李的“ 数据网络 ”愿景的部分,仍可能主张LOD的先进功能(通过RDF表示),但Citadel的发现表明,这种理想忽略了现实。地面在四个方面:

  1. 城市数据所有者绝大多数都喜欢将CSV作为发布格式的简单性。
  2. 开放数据倡导者提倡将CSV用于数据转储,因为这种格式比RDF更为清晰。
  3. 越来越多的开发人员更喜欢CSV表,因为这种格式代表了一块空白画布,他们可以在这些画布上更有效地工作。
  4. 希望使用数据的普通公民无需RDF或XML所需的高级技术即可理解CSV文件。

Citadel项目确定的趋向于扁平化数据集(如CSV)的趋势表明,数据集携带的来源或“行李”越少,无论技术水平如何,对所有用户都越有用。 数据标准的倡导者最好还是从下而上的发现中带头,而不是试图从上方强加技术理想。

打开政府
和开放数据

一系列有关最新开放政府和开放数据的文章。

翻译自: https://opensource.com/government/15/6/citadel-open-government-data-results

数据城堡

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值