目录
1 综合危机预警系统 Integrated Crisis Early Warning System (ICEWS)
https://www.lockheedmartin.com/en-us/capabilities/research-labs/advanced-technology-labs/icews.html
-
监测、评估和预测国家、地方和内部危机;适用于如何分配资源以缓解危机的决策支持(比如,冲突预测)
-
始于一个美国国防高级研究计划局(DARPA)在2008年启动的项目;现由洛克希德·马丁先进技术实验室负责数据库和模型的维护,由美国南方司令部和美国太平洋司令部组织测试和评估
-
事件由 BBN ACCENT 事件编码器进行识别和提取
-
事件类型编码遵循CAMEO分类系统
数据库包括:
(1)iDATA
https://dataverse.harvard.edu/dataverse/icews
-
周报 Weekly Event Data,包含最近一周抽取的事件 (通常延迟 1 天更新)
-
年报 Coded Event Data(更新时间不确定)
-
字典、 事件聚合、 事实数据集
其结构化事件数据包含:- 源参与者source actor,事件类型event type,目标参与者target actor, 强度intensity,位置和坐标等信息
- 地理-时间元数据 metadata
- 由于版权原因,ICEWS不提供事件对应的源文本(新闻文章)
- ICEWS不提供源文本的URL,因为文本内容是ICEWS向资料提供方直接购买的,不是通过网站获取的
(2)iTRACE:趋势可视化和分析
(3)iCAST:事件预测
(4)iSENT:基于大众媒体的情感分析
2 全球事件、语言和语气数据库 (GDELT)
- 基于超过100种语言新闻媒体,人类社会相关的近实时开放式数据库
- 由雅虎的Kalev Leetaru,乔治城大学,以及Philip Schrodt等人共同创建
- 使用 TABARI 系统对事件进行编码,采用另外的软件对位置和音调(Tone)进行编码
- 事件参与者、事件类型的编码遵循 CAMEO 分类法
数据流包括:
(1)事件数据库:编码全球范围内报道的事件活动(CAMEO)
-
1.0版本:文件格式,包含每日抽取的所有事件;数据每天更新
http://data.gdeltproject.org/events/index.html
-
2.0版本:谷歌云 (Big Query);事件记录从 2013/4/1 起,数据每 15 分钟更新一次
http://data.gdeltproject.org/events/index.html
事件记录包含以下属性:- 日期,事件参与者1(源)及其所处地理位置,事件参与者2(目标)及其所处地理位置
- 事件类型相关event action: isRootEvent, EventCode, EventBaseCode, EventRootcode, QuadClass, GoldsteinScale(强度), 事件提及次数NumMentions >= 提及事件的文章篇数NumArticles >= 事件信息的媒体源个数NumSources,AvgTone
- 源文本(新闻)URL等
(2)记录这些事件背后的人、地点、组织、主题和情感及其相互联系
(3)编纂世界新闻图像的视觉叙事
3 冲突与调解事件观察分类法Conflict and Mediation Event Observations (CAMEO)
-
早期工作
- WEIS和COPDAB,均为冷战期间创建的分类法
- 适用于当时主权国家常通过官方外交和军事威胁的方式做回应的情况
- 旧分类法不太适用于当前种族冲突、低强度暴力、有组织犯罪活动和多边干预等问题
-
CAMEO的研究最早开始于2000年,原旨在协助美国美国国家科学基金会的一个州际冲突调解项目
-
现广泛应用于 ICEWS 项目(鲁棒性强,可用性高)
基于目前找到最新的2012年1.1b3版本:
-
内容包括:事件编码方案(系统性强)、宗教和种族分类方案(新方案、系统性强)、参与者Actor分类方案(较不均衡)
-
仍需持续研究的:参与主体Agent分类方案,特定区域编码
-
展望:可考虑使用标准化的WordNet来重新定义CAMEO
- WordNet:一个英语词汇数据库 ,根据词性汇总有名词,动词,形容词,副词等同义词集
- WordNet:一个英语词汇数据库 ,根据词性汇总有名词,动词,形容词,副词等同义词集
4 通过增强替换指令进行文本分析 Textual Analysis By Augmented Replacement Instructions(TABARI)
http://www.mariapinto.es/ciberabstracts/Articulos/TABARI.htm
- 基于模式识别,针对国际事件数据的机器编码系统
- 开源,Kansas Event Data System(KEDS)项目的C++版衍生系统
5 比较ICEWS和GDELT
5.1 概要
ICEWS | GDELT | |
---|---|---|
日期 | √,事件发生时间 | √,包括事件发生时间和事件记录创建时间 |
事件参与者 | √,编码参考自有字典;包括名称,所属部门、国家 | √,编码参考CAMEO;包括名称,所属国家、组别、民族、宗教、类型 |
事件类型 | √ | √ |
事件强度 | √,Intensity | √,GoldsteinScale |
提及次数* | √,NumMentions, NumArticles, NumSources | |
源文本URL | (仅提供源出处Publisher) | √ |
句子序号 | √ | |
时间相同的事件总数 | 少 | 多 |
注:* 在ICEWS中,日期、参与者、事件类型等主要属性相同,但源发布者、源文本ID、句子序号不同,可能会对应不同的事件ID(如下图);但在 GDELT 中可能会被视为同一个事件记录,因此GDELT会统计事件的提及次数。
5.2 示例
下面以2022 年 8 月 26 日发生的事件为例,分析比较两个事件数据库:
-
提取的事件数:
- ICEWS: 1929条(来自8/22-8/28的周数据集)+ 22条(来自8/29-9/4的周数据集)+ …
- GDELT: 98359条(来自8/26的日数据集)+ 230条(来自8/27的日数据集)+ …
-
ICEWS提供了事件参与者的具体名字,但GDELT仅提供了参与者较为笼统的名称
(ICEWS:参与者名字为佩罗西Nancy Pelosi,布莱客本Marsha Blackburn)
(GDELT:参与者名字为美国官员US OFFICIAL)
- 位置
-
GDELT:有时不能正确识别事件参与者所处位置
(GDELT:如第 13487 条,Actor2Name=美国官员,但Actor2Geo_FullName=中国 北京)
查看第 13487 条的源文本(新闻),发现仅最后一段提及窜台事件,而“北京”是在最后一句有提及:
-
再查找GDELT从本篇新闻提取到的所有事件,发现访问相关的参与者地理位置均有误:
(注:事件编码EventCode,071指提供经济援助,042指访问Make a visit, 043指接待访问Host a visit)
5.3 结论
来源:Arva, Bryan; Beieler, John; Fisher, Ben; Lara, Gustavo; Schrodt, Philip A.; Song, Wonjun; Sowell, Marsha; Stehle, Sam (July 3, 2013). “Improving Forecasts of International Events of Interest”. Retrieved June 21, 2014.
-
宾夕法尼亚州立大学教授在欧洲政治研究协会会上的发表
-
结论:在预测五个感兴趣的事件方面,GDELT数据表现优于ICEWS
-
算法:随机森林,自适应增强AdaBoost
-
原因:ICEWS算法过度减少误报(false negative)导致
- ICEWS致力于减少误报的同时没有同步减少漏报(false negative),造成数据集的不平衡,而漏报的处理其实会更棘手
- ICEWS处理误报的同时也消除了不少真阳性事件(true positive)
- GDELT更倾向于生成一个高误报率、极低漏报率的事件数据库,而这个特点是有利于统计预测任务的
-
建议
- 每个数据集都有其自身的统计特征,建模时需要考虑所使用数据集的特征
- 可考虑之后的预测模型集成这两个数据集的数据
注:上文“Improving Forecasts of International Events of Interest”所使用的ICEWS数据来自研究阶段,并非当时的生产数据。