VAiRoma:一个有关分析理解罗马历史中的地点时间和事件的可视化分析工具
综述
本文主要介绍了作者制作的一个基于web的可视化工具VAiRoma
编程工具:PHP, js, arcgis.com, d3.com
数据来源:维基百科关于(Rome,Roma,Roman等)的 189000篇纯文本数据
功能模块:时间图,主题图,地点图,用户自定义便签
(图一)
1.数据处理:
1)关键词过滤:
(包括:Rome,Roma,Roman,City of Roman Empire and Italian State encompass)
结果为189000篇纯文本数据
2)主题模型建立:
一共提取了40个主题,为了节省空间用Topic Rose Tree展示,
提取位置信息使用了Stanford NER(Named Entity Recognizer)
缺点没有验证的标准,为了帮助验证增加了6个便签,标记地点,后面也可以作为主题来过滤筛选,如下:
3)位置提取并在地图上标记
利用GeoNames' REST Web Services来定位,选择排名第一的选项
人工纠正不正确的标记
4)日期提取
使用Stanford NER和正则表达式,对于模棱两可的时间比如说16实际早期,就精确到某一年,
因为要在时间轴上定义,所以缺点时间不一定精确
5)联系时间和地点
作者说历史类的文章会按照事件的发生顺序来写,所以在一段中出现一个地点和一个时间,那就把他们关联起来。
另一个段落的时间和地点另外关联,然后统计这些地点出现的频率。
数据预处理的整体步骤描述:
二.用户界面
时间视图:范围从2000BC-2010AD,用户可以通过拖拽时间范围过滤主题,地点等信息。
地点视图:利用ArcGIS制作了三个图层,hotheat map ,point map,pin map,用户点击的时候会显示相关这个地点文章
主题视图:利用圆圈展示了25个主要主题在圈内,用颜色深度来表示重要程度
tabular视图如下:
这个视图是按照主题来展示的,排序是按照权重,有关时间位置和主题的关键词会用不同的颜色标记出来
VAiRoma的作用
1.可以选择时间范围来观察,地点,主题的变化,用户想查看相关信息的话可以点击图一中左边的列表框选择相关的主题或者位置查看相关的文章。
2.多种过滤方式,基于时间,地点,主题。
3.通过位置信息查找文章。
4.划定区域选择文章,了解事件,区域为3米的圆内
5.比较两个时间段内的变化
6.用户自定义标签在地图上标记,自己的见解,模版为:where when who what why
本文技术缺点:
1) 截取的位置信息和时间无法保证准确
2)信息不够学术性
3)故事手法简单