2021-05-19

GDELT数据说明

本文转载及汇整一下两篇文章

https://blog.csdn.net/qq_23926575/article/details/78064093

https://blog.csdn.net/qq_28145941/article/details/106733397

GDELT数据说明

GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体–印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒都在推动全球社会的事件,GDELT为全球提供了一个自由开放的计算平台。

GDELT2.0每隔15分钟提供全球事件数据。这些事件从1979年1月1日开始一直到今日。GDELT提供免费的数据下载。同时GDELT还在谷歌的BigQuery上提供了数据API,可以使用谷歌的分析工具进行分析。GDELT的数据除了事件数据外,还提供了全球知识图GKG (Global Knowledge Graph)数据。

GDELT数据解压后为csv格式,每个csv文件内的数据均有58个字段,字段间以’\t’分割,(2013年3月以前的数据仅有57个字段,4月之后为58个字段,即多了url字段),这58个字段分为EVENTID AND DATE ATTRIBUTES,ACTOR ATTRIBUTES,EVENT ACTION ATTRIBUTES,EVENT GEOGRAPHY,DATA MANAGEMENT FIELDS这五部分。

  • EVENT AND DATE ATTRIBUTES

这一部分的字段记录了捕捉事件的全局唯一标识符号码,事件发生的日期和日期的不同版本格式,这有助于信息被记录在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:

1 GlobalEventID:数据类型为整数型,它是一条记录的唯一标识符,通常是递增标识的。

2 Day:记录事件发生的日期,格式为YYYYMMDD

3 MonthYear:记录事件发生的年月,格式为YYYYMM

4 Year:记录事件发生的年份,格式为YYYY

5 FractionDate:记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。

  • ACTOR ATTRIBUTES

这一部分字段描述了事件的两个参与者的CAMEO码、名称和特征属性。在复杂事件或仅有一个参与者的事件中另一个参与者的属性值可能为空,在GDELT系统无法识别参与者时参与者属性也可能为空。每个参与者的各项属性在缺省的情况下也会为空值。所包含的字段有:

6 Actor1Code:参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(政治精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。

7 Actor1Name:参与者1的名称。对于政治领袖或组织,这将是领导人的正式名称(如乔治·W·布什、联合国);地理比赛将是该国或首都/主要城市名称。

8 Actor1CountryCode:参与者1国家信息的CAMEO码(3字母缩写),它可能为Actor1Code中的CAMEO码,也可能为空。它标识了受到该事件影响的地理区域。

9 Actor1KnownGroupCode:如果参与者1是一个已知的组织/非政府组织/反叛组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。

10 Actor1EthnicCode:如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。

11Actor1Religion1Code:如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。

12 Actor1Religion2Code:如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。

13 Actor1Type1Code:此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、政治反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。特殊的代码如“温和的”和“激进的”可能指一组的操作策略。

14 Actor1Type2Code:如果参与者1具有多重角色,此处将包含其CAMEO码。

15 Actor1Type3Code:如果参与者1具有多重角色,此处将包含其CAMEO码。

参与者2将重复以上所有属性。

16 Actor2Code

17 Actor2Name

18 Actor2CountryCode

19 Actor2KnownGroupCode

20 Actor2EthnicCode

21 Actor2Religion1Code

22 Actor2Religion2Code

23 Actor2Type1Code

24 Actor2Type2Code

25 Actor2Type3Code

  • EVENT ACTION ATTRIBUTES

这部分字段将包含事件行为(即参与者1对参与者2所做的事)的各类属性,并将提供几种机制来评估事件的重要性和其造成的短期影响。

26 IsRootEvent:此字段标识了该事件在事件流中是否处于根节点位置。

27 EventCode:此字段通过CAMEO码描述了事件参与者1对参与者2的行为。

28 EventBaseCode:这里是一个三级分类法标识的CAMEO码。对于第三级的事件,此处包含其二级事件的叶节点。例如编码“0251”(“Appeal for easing of administrative sanctions”) ,此处即为“025” (“Appeal to yield”)。对于二级事件和一级事件,此处即为其EventCode。

29 EventRootCode:与上面类似,此处标识了事件的根节点。 如“0251” (“Appeal for easing of administrative sanctions”) ,此处即为“02” (“Appeal”)。

30 QuadClass:这个字段指定事件类型主要分类,所有事件将被划分为以下四个分类之一:1=口头合作,2=物质合作,3=口头冲突,4=物质冲突。

31 GoldsteinScale:每个事件将被分配一个在-10到+10之间的数值,用以衡量理论上该事件对国家产生的潜在影响。 注意 :这个分数的判定是基于事件类型而非事件的细节,因此一个10人参与的暴乱与一个1000人参与的暴乱都将获得同样的分数。

 

32 NumMentions:该属性值为数据库内所有文章提及该事件的次数。这可以用作评估事件的重要性的方法:讨论该事件越多,越有可能是重要的。如果新闻文章发表之后这个事件引发了讨论,该字段数值会进行更新(例如,一个事件在几周后的可能引发一个舆论热潮,会有无数的新闻文章发表提到原始新闻;在新的发展背景下,某一事件在一周年时可能会有进一步的报道)。

33 NumSources:该属性值为所有提及该事件的数据源数值。同上一个属性一样,这也可以用作评估事件的重要性的方法。该属性值也会在上文相同的情况下进行更新。

34 NumArticles:该属性值为所有提及该事件的文章数。同上一个属性一样,这也可以用作评估事件的重要性的方法。该属性值也会在上文相同的情况下进行更新。

35 AvgTone:该属性值为所有文章提及该事件时“语气”的平均值。分数范围从-100(极其消极的)到+100(极积极的)。共同的价值观分数范围在-10和+10之间,0表示中立。这可以用作过滤事件的“上下文”的方法,从而衡量一个事件的重要性和其影响。例如,轻微负面语气的暴乱事件很可能是一个小事件,而如果是极其负面的语气,这表明可能是一个更严重的事件。而具有积极分数的暴乱事件则可能表明上下文中正在描述一个积极的事(如每天攻击的数量已经大大减少了)。

  • EVENT GEOGRAPHY

这一部分属性值描述了事件参与者与事件的地理位置信息,包含如下字段:

36 Actor1Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

37 Actor1Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。

38 Actor1Geo_CountryCode:标识参与者1国家地理信息的FIPS10-4国家编码。

39 Actor1Geo_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。

40 Actor1Geo_ADM2Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。

41 Actor1Geo_Lat:参与者1所处地理位置的纬度。

42 Actor1Geo_Long:参与者1所处地理位置的经度。

43 Actor1Geo_FeatureID:参与者1地理位置的GNS或GNIS标识,详细信息请参考 Leetaru(2012)

44 Actor2Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

45 Actor2Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。

46 Actor2Geo_CountryCode:标识参与者2国家地理信息的FIPS10-4国家编码。

47 Actor2Geo_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者2的行政区划地理信息。

48 Actor2Geo_ADM2Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。

49 Actor2Geo_Lat:参与者2所处地理位置的纬度。

50 Actor2Geo_Long:参与者2所处地理位置的经度。

51 Actor2Geo_FeatureID:参与者2地理位置的GNS或GNIS标识,详细信息请参考 Leetaru(2012)

52 ActionGeo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

53 ActionGeo_Fullname 此处为Action的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。

54 ActionGeo_CountryCode 此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了Action的行政区划地理信息。

55 ActionGeo_ADM1Code 此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。

56 ActionGeo_ADM2Code: 对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。注意:在没有ADM2信息可用,某些ADM1级别匹配以及所有国家级匹配的情况下,此字段可能为空白/空。 注意:此字段可能仍然包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。

57 ActionGeo_Lat

58 ActionGeo_Long

59 ActionGeo_FeatureID

  • DATA MANAGEMENT FIELDS

最后一组字段提供数据管理信息记录的事件记录。2013年4月1日之前的事件在这部分中只具有DATEADDED属性。

60 DATEADDED:因为今天发布的新闻报道可以报道过去的事件,这将导致此字段和其他事件日期字段不一致。此字段记录的是该条数据被添加入数据库的日期,而第一部分的日期信息记录的是事件发生的时间。

61 SOURCEURL:这个字段只存在2013年4月1日以后的文件中。通常记录事件的新闻文章的URL列表。如果事件是从BBC监测服务的文章中获得的,这个字段将包含“BBC Monitoring”。如果一个事件在多篇文章中被提及,只提供一个url。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值