事件数据库Event Databse (ICEWS & GDELT)

1 综合危机预警系统 Integrated Crisis Early Warning System (ICEWS)

https://www.lockheedmartin.com/en-us/capabilities/research-labs/advanced-technology-labs/icews.html

  • 监测、评估和预测国家、地方和内部危机;适用于如何分配资源以缓解危机的决策支持(比如,冲突预测)

  • 始于一个美国国防高级研究计划局(DARPA)在2008年启动的项目;现由洛克希德·马丁先进技术实验室负责数据库和模型的维护,由美国南方司令部和美国太平洋司令部组织测试和评估

  • 事件由 BBN ACCENT 事件编码器进行识别和提取

  • 事件类型编码遵循CAMEO分类系统
     
    数据库包括:
    (1)iDATA
    https://dataverse.harvard.edu/dataverse/icews
    在这里插入图片描述

  • 周报 Weekly Event Data,包含最近一周抽取的事件 (通常延迟 1 天更新)
    在这里插入图片描述

  • 年报 Coded Event Data(更新时间不确定)

  • 字典、 事件聚合、 事实数据集
     
    其结构化事件数据包含:

    • 源参与者source actor,事件类型event type,目标参与者target actor, 强度intensity,位置和坐标等信息
    • 地理-时间元数据 metadata
    • 由于版权原因,ICEWS不提供事件对应的源文本(新闻文章)
    • ICEWS不提供源文本的URL,因为文本内容是ICEWS向资料提供方直接购买的,不是通过网站获取的
       
      (2)iTRACE:趋势可视化和分析
      (3)iCAST:事件预测
      (4)iSENT:基于大众媒体的情感分析
       

2 全球事件、语言和语气数据库 (GDELT)

  • 基于超过100种语言新闻媒体,人类社会相关的近实时开放式数据库
  • 由雅虎的Kalev Leetaru,乔治城大学,以及Philip Schrodt等人共同创建
  • 使用 TABARI 系统对事件进行编码,采用另外的软件对位置和音调(Tone)进行编码
  • 事件参与者、事件类型的编码遵循 CAMEO 分类法 

数据流包括:
(1)事件数据库:编码全球范围内报道的事件活动(CAMEO)

  • 1.0版本:文件格式,包含每日抽取的所有事件;数据每天更新
    http://data.gdeltproject.org/events/index.html
    在这里插入图片描述

  • 2.0版本:谷歌云 (Big Query);事件记录从 2013/4/1 起,数据每 15 分钟更新一次
    http://data.gdeltproject.org/events/index.html
    在这里插入图片描述
     
    事件记录包含以下属性:

    • 日期,事件参与者1(源)及其所处地理位置,事件参与者2(目标)及其所处地理位置
    • 事件类型相关event action: isRootEvent, EventCode, EventBaseCode, EventRootcode, QuadClass, GoldsteinScale(强度), 事件提及次数NumMentions >= 提及事件的文章篇数NumArticles >= 事件信息的媒体源个数NumSources,AvgTone
    • 源文本(新闻)URL等

 
(2)记录这些事件背后的人、地点、组织、主题和情感及其相互联系
(3)编纂世界新闻图像的视觉叙事
 

3 冲突与调解事件观察分类法Conflict and Mediation Event Observations (CAMEO)

  • 早期工作

    • WEIS和COPDAB,均为冷战期间创建的分类法
    • 适用于当时主权国家常通过官方外交和军事威胁的方式做回应的情况
    • 旧分类法不太适用于当前种族冲突、低强度暴力、有组织犯罪活动和多边干预等问题
       
  • CAMEO的研究最早开始于2000年,原旨在协助美国美国国家科学基金会的一个州际冲突调解项目

  • 现广泛应用于 ICEWS 项目(鲁棒性强,可用性高)

    基于目前找到最新的2012年1.1b3版本:

  • 内容包括:事件编码方案(系统性强)、宗教和种族分类方案(新方案、系统性强)、参与者Actor分类方案(较不均衡)

  • 仍需持续研究的:参与主体Agent分类方案,特定区域编码

  • 展望:可考虑使用标准化的WordNet来重新定义CAMEO

    • WordNet:一个英语词汇数据库 ,根据词性汇总有名词,动词,形容词,副词等同义词集
       

4 通过增强替换指令进行文本分析 Textual Analysis By Augmented Replacement Instructions(TABARI)

http://www.mariapinto.es/ciberabstracts/Articulos/TABARI.htm

  • 基于模式识别,针对国际事件数据的机器编码系统
  • 开源,Kansas Event Data System(KEDS)项目的C++版衍生系统

 

5 比较ICEWS和GDELT

5.1 概要

ICEWSGDELT
日期√,事件发生时间√,包括事件发生时间和事件记录创建时间
事件参与者√,编码参考自有字典;包括名称,所属部门、国家√,编码参考CAMEO;包括名称,所属国家、组别、民族、宗教、类型
事件类型
事件强度√,Intensity√,GoldsteinScale
提及次数*√,NumMentions, NumArticles, NumSources
源文本URL(仅提供源出处Publisher)
句子序号
时间相同的事件总数

注:* 在ICEWS中,日期、参与者、事件类型等主要属性相同,但源发布者、源文本ID、句子序号不同,可能会对应不同的事件ID(如下图);但在 GDELT 中可能会被视为同一个事件记录,因此GDELT会统计事件的提及次数。
在这里插入图片描述
 

5.2 示例

下面以2022 年 8 月 26 日发生的事件为例,分析比较两个事件数据库:

  • 提取的事件数:

    • ICEWS: 1929条(来自8/22-8/28的周数据集)+ 22条(来自8/29-9/4的周数据集)+ …
    • GDELT: 98359条(来自8/26的日数据集)+ 230条(来自8/27的日数据集)+ …
       
  • ICEWS提供了事件参与者的具体名字,但GDELT仅提供了参与者较为笼统的名称
    在这里插入图片描述

      					(ICEWS:参与者名字为佩罗西Nancy Pelosi,布莱客本Marsha Blackburn)
    

在这里插入图片描述

									(GDELT:参与者名字为美国官员US OFFICIAL)

 

  • 位置
    • GDELT:有时不能正确识别事件参与者所处位置
      在这里插入图片描述

        				 (GDELT:如第 13487 条,Actor2Name=美国官员,但Actor2Geo_FullName=中国 北京)
      

       
      查看第 13487 条的源文本(新闻),发现仅最后一段提及窜台事件,而“北京”是在最后一句有提及:
      在这里插入图片描述

 
再查找GDELT从本篇新闻提取到的所有事件,发现访问相关的参与者地理位置均有误:
在这里插入图片描述

		(注:事件编码EventCode,071指提供经济援助,042指访问Make a visit, 043指接待访问Host a visit)
	 

5.3 结论

来源:Arva, Bryan; Beieler, John; Fisher, Ben; Lara, Gustavo; Schrodt, Philip A.; Song, Wonjun; Sowell, Marsha; Stehle, Sam (July 3, 2013). “Improving Forecasts of International Events of Interest”. Retrieved June 21, 2014.

  • 宾夕法尼亚州立大学教授在欧洲政治研究协会会上的发表

  • 结论:在预测五个感兴趣的事件方面,GDELT数据表现优于ICEWS

  • 算法:随机森林,自适应增强AdaBoost

  • 原因:ICEWS算法过度减少误报(false negative)导致

    • ICEWS致力于减少误报的同时没有同步减少漏报(false negative),造成数据集的不平衡,而漏报的处理其实会更棘手
    • ICEWS处理误报的同时也消除了不少真阳性事件(true positive)
    • GDELT更倾向于生成一个高误报率、极低漏报率的事件数据库,而这个特点是有利于统计预测任务的
       
  • 建议

    • 每个数据集都有其自身的统计特征,建模时需要考虑所使用数据集的特征
    • 可考虑之后的预测模型集成这两个数据集的数据

注:上文“Improving Forecasts of International Events of Interest”所使用的ICEWS数据来自研究阶段,并非当时的生产数据。

  • 5
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
数据库迁移是将一个数据库从一个系统迁移到另一个系统的过程。对于Oracle数据库来说,数据库迁移可以包括将数据库从一个服务器迁移到另一个服务器,或者将数据库从一个版本升级到另一个版本。 数据库迁移的目的可以有多个,例如提供更好的性能、增加可用性、减少成本等。无论迁移的原因如何,一般来说,数据库迁移的过程可以分为以下几个步骤: 1. 分析和评估:在开始迁移之前,需要对当前数据库进行详细的分析和评估。这包括了解数据库结构、存储需求、性能指标等。 2. 准备环境:在迁移过程中,需要准备目标环境。这可能涉及设置新的服务器、安装新的操作系统和数据库软件等。 3. 数据迁移:将数据从源数据库迁移到目标数据库。这可以通过备份和恢复数据库、使用数据泵工具、使用物理复制等方式实现。 4. 应用程序迁移:除了迁移数据库本身,还需要迁移与数据库相关的应用程序。这可能涉及修改连接字符串、更改SQL语句等。 5. 测试和验证:在迁移完成后,需要对新的数据库进行测试和验证。这可以包括性能测试、功能测试等。 6. 切换和升级:一旦新的数据库经过测试和验证,可以进行切换操作,将应用程序指向新的数据库。如果数据库升级是迁移的一部分,也需要进行相应的升级操作。 7. 后续维护:数据库迁移完成后,需要进行后续的维护工作。这包括备份和恢复策略、性能优化、监控等。 总的来说,数据库迁移是一个复杂的过程,需要认真规划和执行。在迁移过程中,需要确保数据的完整性和一致性,并最大程度上减少停机时间和数据丢失的风险。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值