开源数据无处不在,但是在许多情况下,它们的格式多种多样,不仅仅是以Excel形式,如xml、JSON,因此并非所有潜在用户都可以访问数据。这意味着只有具有相关数据知识基础
的用户才能查询信息并提取有价值的数据结论。 举个例子:欧盟开放倡议使得许多政府在其门户网站上公布其大量数据。下面是相关链接:
http://www.arso.gov.si/xml/zrak/ones_zrak_urni_podatki_zadnji.xml
该数据集包含斯洛文尼亚每隔1小时的最新污染物测量值。该网站定期更新,但是新的数据记录取代旧记录。其中产生了两个问题,第一是当前值与之前的测量值无法进行比较,第二是无法进行数据前后关联获取相关联系。也就是说,与某些标准相比,当前的污染物测量值是低还是高,无从得知。
如果没有这种评估,普通市民就无法确定他们所在城镇的空气是否干净,是否应该让孩子留在室内,并在污染高峰前关闭窗户。
一、创建自动化数据采集工作流
我们将使用文件块(黄色块)直接从URL中收集数据,然后重命名并格式化日期和其他字段(紫色字段管理器块),然后将记录存储在IOD中以附加模式输出文件(绿色块)。
接着使用管理部分中的调度应用程序,每 3 小时自动收集和存储一次数据。通过执行一些常规的重复数据删除操作,可以在同一个项目中将同一归档数据文件块可视化(绿色区域中的黄色块)。