此文章是我刚开始研究GDELT时对GDELT项目(https://www.gdeltproject.org/)官方文档的翻译汇总,另外加了一些自己的介绍,以便后续研究查用,主要翻译的内容是下面几个文档:
- http://data.gdeltproject.org/documentation/GDELT-Data_Format_Codebook.pdf
- http://data.gdeltproject.org/documentation/GDELT-Event_Codebook-V2.0.pdf
- http://data.gdeltproject.org/documentation/GDELT-Global_Knowledge_Graph_Codebook.pdf
- http://data.gdeltproject.org/documentation/GDELT-Global_Knowledge_Graph_Codebook-V2.1.pdf
- http://data.gdeltproject.org/documentation/GDELT-Visual_Global_Knowledge_Graph-V1.0Alpha.pdf
上面的链接从上至下是GDELT项目关于Event Database 1.0、Event Database 2.0、Global Knowledge Graph(GKG) 1.0、Global Knowledge Graph 2.0、Visual GKG的官方介绍文档。
英语好的最好是直接看官方文档,不过官方文档实在太长,下面的翻译都是借助于谷歌翻译,特别明显的错误会进行改正,不过如果要做到十分准确,工作量太大,所以应该有大量纰漏存在,可以结合官方文档一起看。
因为zhengzhi涉嫌违规,所以都用缩写zz代替了。
目录
1.1 GDELT 1.0事件数据库(Event Database 1.0)
1.2 GDELT2.0事件数据库(Event Database 2.0)
1.3 GDELT1.0全球知识图(Global Knowledge Graph 1.0)
1.4 GDELT2.0全球知识图(Global Knowledge Graph 2.0)
1.5 GDELT视觉全球知识图(Visual Global Knowledge Graph)
------------------------------------------------------------------------------
1.GDELT提供的数据
GDELT项目涵盖从1979年至今的所有新闻数据,它每日对全球新闻报道进行自动抓取,并通过文本分析从不同维度提取信息。
所有GDELT数据获取方式均为从网页下载ZIP类型数据压缩包,解压后为CSV格式。
1.1 GDELT 1.0事件数据库(Event Database 1.0)
1.1.1 数据整体介绍
GDELT事件数据库记录了世界各地的300多种事件,收集从1979年1月1日至今整个世界的数据,并提供了地理参考信息。
GDELT1.0中,从1979至2005收集的为整年数据,2006至2013年3月收集的为分月数据,2013年4月至今收集的为每天数据。
1.1.2 数据具体介绍
每个CSV文件内的数据均有58个字段(2013年3月以前的数据仅有57个字段,缺少SOURCEURL字段)。
这58个字段分为EVENTID AND DATE ATTRIBUTES(事件ID和时间属性),ACTOR ATTRIBUTES(参与者信息),EVENT ACTION ATTRIBUTES(事件行为属性),EVENT GEOGRAPHY(事件及参与者的地理参考信息),DATA MANAGEMENT FIELDS(事件管理字段)这五部分。
(1)EVENT AND DATE ATTRIBUTES
这一部分的字段记录了捕捉事件的全局唯一标识符号码,事件发生的日期和日期的不同版本格式,这有助于信息被记录在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:
GlobalEventID:数据类型为整数型,它是一条记录的唯一标识符,通常它是递增标识的。
Day:记录事件发生的日期,格式为YYYYMMDD
MonthYear:记录事件发生的年月,格式为YYYYMM
Year:记录事件发生的年份,格式为YYYY
FractionDate:记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。
(2)ACTOR ATTRIBUTES
这一部分字段描述了事件的两个参与者的CAMEO码、名称和特征属性。
注:除了CountryCode之外的其他字段都来自于TABARI ACTORS字典,而不是直接来自于文本,也就是说如果文本中为“恐怖分子”,而TABARI ACTORS字典标记为“叛乱分子”,后者将被采用。而CountryCode反映字典和文字的集合,字典优先,如文本为“法国助理部长史密斯在莫斯科”,那么CountryCode为法国,而后面将提到的地理信息字段为莫斯科。
在复杂事件或仅有一个参与者的事件中另一个参与者的属性值可能为空,在GDELT系统无法识别参与者时参与者属性也可能为空。每个参与者的各项属性在缺省的情况下也会为空值。所包含的字段有:
Actor1Code:参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(zz精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。
Actor1Name:参与者1的名称。对于zz领袖或组织,这将是领导人的正式名称(如乔治·W·布什、联合国);地理比赛将是该国或首都/主要城市名称。
Actor1CountryCode:参与者1国家信息的CAMEO码(3字母缩写),它可能为Actor1Code中的CAMEO码,也可能为空。它标识了受到该事件影响的地理区域。
Actor1KnownGroupCode:如果参与者1是一个已知的组织/非政府组织/反叛组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。
Actor1EthnicCode:如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。
Actor1Religion1Code:如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。
Actor1Religion2Code:如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。
Actor1Type1Code:此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、zz反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。特殊的代码如“温和的”和“激进的”可能指一组的操作策略。
Actor1Type2Code:如果参与者1具有多重角色,此处将包含其CAMEO码。
Actor1Type3Code:如果参与者1具有多重角色,此处将包含其CAMEO码。
参与者2将重复以上所有属性。
(3)EVENT ACTION ATTRIBUTES
这部分字段将包含事件行为(即参与者1对参与者2所做的事)的各类属性,并将提供几种机制来评估事件的重要性和其造成的短期影响。
IsRootEvent:此字段标识了该事件在事件流中是否处于根节点位置。
EventCode:此字段通过CAMEO码描述了事件参与者1对参与者2的行为。
EventBaseCode:这里是一个三级分类法标识的CAMEO码。对于第三级的事件,此处包含其二级事件的叶节点。例如编码“0251”(“Appeal for easing of administrative sanctions”) ,此处即为“025” (“Appeal to yield”)。对于二级事件和一级事件,此处即为其EventCode。
EventRootCode:与上面类似,此处标识了事件的根节点。 如“0251” (“Appeal for easing of administrative sanctions”) ,此处即为“02” (“Appeal”)。
QuadClass:这个字段指定事件类型主要分类,所有事件将被划分为以下四个分类之一:1=口头合作,2=物质合作,3=口头冲突,4=物质冲突。
GoldsteinScale:每个事件将被分配一个在-10到+10之间的数值,用以衡量理论上该事件对国家产生的潜在影响。 注意 :这个分数的判定是基于事件类型而非事件的细节,因此一个10人参与的事件与一个1000人参与的事件都将获得同样的分数。
NumMentions:该属性值为数据库内所有文章提及该事件的次数。这可以用作评估事件的重要性的方法:讨论该事件越多,越有可能是重要的。(如果新闻文章发表之后这个事件引发了讨论,该字段数值会更新,例如,一个事件在几周后的可能引发一个舆论热潮,会有无数的新闻文章发表提到原始新闻;在新的发展背景下,某一事件在一周年时可能会有进一步的报道),但是在每天的数据中仅包括该天发现的事件而不包括这些更新。
NumSources:该属性值为所有提及该事件的数据源数值。同上一个属性一样,这也可以用作评估事件的重要性的方法。与上一个一样更新也不会被包括在每天的数据中。
NumArticles:该属性值为所有提及该事件的文章数。同上一个属性一样,这也可以用作评估事件的重要性的方法。与上一个一样更新也不会被包括在每天的数据中。
AvgTone:该属性值为所有文章提及该事件时“语气”的平均值。分数范围从-100(极其消极的)到+100(极积极的)。共同的价值观分数范围在-10和+10之间,0表示中立。这可以用作过滤事件的“上下文”的方法,从而衡量一个事件的重要性和其影响。例如,轻微负面语气的事件很可能是一个小事件,而如果是极其负面的语气,这表明可能是一个更严重的事件。而具有积极分数的事件则可能表明上下文中正在描述一个积极的事(如每天攻击的数量已经大大减少了)。
(4)EVENT GEOGRAPHY
这一部分属性值描述了事件参与者与事件的地理位置信息,包含如下字段:
Actor1Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)
Actor1Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。
Actor1Geo_CountryCode:标识参与者1国家地理信息的FIPS10-4国家编码。
Actor1Geo_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。
Actor1Geo_Lat:参与者1所处地理位置的纬度。
Actor1Geo_Long:参与者1所处地理位置的经度。
Actor1Geo_FeatureID:参与者1地理位置的GNS或GNIS标识。
参与者2和事件将重复以上所有属性。
(5)DATA MANAGEMENT FIELDS
提供事件管理信息,在对数据库的镜像执行更新时,这非常有用,因为今天发布的新闻报道可能会添加来自遥远过去的事件,日期字段包含的为事件实际发生的日期,而下面提供的DATEADDED字段为事件加入数据库的日期。
DATEADDED:事件加入数据库的日期。
SOURCEURL:事件被发现的新闻链接,如果被多次提到,只会包含一个链接。
1.1.3 数据量大小
每月或每年的数据在10-100M左右(随着日期增加逐渐变大),每天的数据在10M左右。
每天的数据在10-20万条左右,每条数据57或58个字段。
1.1.4 获取方式
获取HTML地址:http://data.gdeltproject.org/events/index.html。
给出ZIP格式包,可以点击直接下载。
1.2 GDELT2.0事件数据库(Event Database 2.0)
1.2.1 数据整体介绍
GDELT2.0加入了大量新的特征到事件数据库中,并且包括了65中实时翻译的以各种语言发布的文章,核心列与1.0相同,添加了一些新列,并添加了一个“mention”表以及其他的一些更改,数据每15分钟更新一次。
GDELT2.0的数据目前只能到2015年2月19日上午,之前的数据暂时没有,如果用户需要进行历史分析,应该使用GDELT1.0的数据,GDELT2.0的数据用于实时分析。
1.2.2 数据具体介绍
每15分钟生成4个CSV格式表格,分别为英文事件表、其他语言翻译事件表、英文Mention表、其它语言翻译Mention表。
(1)事件表
GDELT2.0的事件表中有61个字段,其中58个字段与GDELT中完全相同,新增的3个字段为在EVENT GEOGRAPHY中参与者1、参与者2和事件都增加了一个Geo_ADM2Code属性。
Geo_ADM2Code:对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。
与GDELT1.0相同的58个属性,其属性描述也是相同的,不同的是在GDELT2.0中,EVENT ACTION ATTRIBUTES中的NumMentions、NumSources、NumArticles、AvgTone四个属性值由对每天的统计变为对每15分钟的统计。以及DATA MANAGEMENT FIELDS中的DATEADDED属性由之前只精确到天到现在改为精确到每15分钟。
(2)Mentions表
Mentions表格是GDELT 2.0的一个新增内容,它记录事件表中事件的每次提及,使得可以跟踪在全球媒体系统中流动的轨迹和网络结构。每提到一个事件,都会在提及表中收到它自己的条目,因此,一个在100篇文章中提到的事件将在提及表中列出100次。无论原始事件发生的日期如何,都会记录提及事件,这意味着今天提及的一年之后的事件仍将被记录下来,从而可以追踪“周年事件”或重新化为现在行动的历史事件的讨论。如果新闻报道提及多个事件,则每个提及都被单独记录在该表中。对于翻译的文件,事件提及的记录均以英文翻译为准。
记录在Mentions表中的几个新属性让我们可以根据GDELT提取该事件的自信程度来更好地过滤事件。当试图理解跨越全球的新闻媒体时,人们会发现新闻模棱两可,充满了复杂的背景知识和语言结构。GDELT利用一系列自然语言处理算法来处理文本。虽然这极大地提高了GDELT理解和提取模糊和语言复杂事件的能力,但这样的提取也具有更高的错误可能性。在GDELT1.0中,NumMentions字段被设计为提及事件的文档的数量和重复提及次数。在GDELT 2.0中,文章每提到了一个事件,Mentions表中都会有一个单独的记录,而新的Confidence字段记录了GDELT对从该特定文章中提取该事件的置信度。这是一个百分比,范围从10到100%,指出GDELT从该文章中提取事件的困难程度。通过这个属性对所有提及的事件进行排序使得能够确定对事件讨论的最强烈和最明确的文章。
Mentions表共包括16个字段,介绍如下:
GlobalEventID:在文章中提到的事件的ID。
EventTimeDate:是事件首次被GDELT数据库发现的时间(即原始数据的DATAADDED字段),是一个15分钟的时间戳。
MentionTimeDate:是当前更新时间的一个15分钟的时间戳,在整个Mentions表中这个字段将是一样的。
MentionType:是数据源的一个数字标识符,用来解释下面的MentionIdentifier字段,它指定如何解释MentionIdentifier字段来定位文档。
- 1 = WEB(文档来源于开放的网页,MentionIdentifier是一个完全合格的URL,可以用来访问网页上的文档)。
- 2 = CITATIONONLY(文档源自广播,打印或其他离线源,其中只有文本引用可用于此文档,在这种情况下,MentionIdentifier包含文档的文本引用)。
- 3 = CORE(文件来源于CORE档案,MentionIdentifier含有DOI,适合通过CORE网站访问原始文件)。
- 4 = DTIC(文档来自DTIC档案,而MentionIdentifier含有DOI,适合通过DTIC网站访问原始文档)。
- 5 = JSTOR(文档来源于JSTOR归档文件,MentionIdentifier文件包含DOI,如果您的机构订阅,则适合通过JSTOR订阅访问原始文档)。
- 6 = NONTEXTUALSOURCE(文档来源于通过URL提供的非文本信息源(如视频)的文本代理(如隐藏字幕),而MentionIdentifier提供非文本原始源的URL。目前,该收集标识符用于处理互联网档案电视新闻档案的隐藏字幕流,其中每个广播通过URL可用,但是该URL仅提供对广播的视频的访问,并且不提供对用于生成元数据的文本隐藏式字幕,该代码用于区分基于URL的文本材料(集合标识符1(WEB)和基于URL的非文本材料(如电视新闻存档))之间的区别。
MentionSourceName:这是文档来源的人性化标识符。 对于源自开放网站的带有URL的材料,该字段将包含该页面来自的顶级域。 对于BBC的监测材料,它将包含“BBC Monitoring”,而对于JSTOR材料,它将包含“JSTOR”。该字段主要用于显示主要来源,以及按来源进行信息流的网络分析,避免了对执行域或其他MentionIdentifier字段的解析。
MentionIdentifier:这是源文档的唯一外部标识符。它可以用来唯一标识文档并访问源文档,如果源数据是公开访问的或者被订阅的。
SentenceID:事件在文章中被提到的句子位置(从第一句开始为1,第二句为2,第三句为3,等等)。 这可以类似于下面的CharOffset字段,但是是根据句子而不是字符来报告事件在文章中的位置,这更适合于在文章中定位事件的“重要性”的某些度量。
Actor1CharOffset:参与者1在文章中被找到的位置(以英文字符表示的文档)。 这可以与GKG或其他分析结合使用来进一步识别演员的特征和属性。
Actor2CharOffset:参与者2在文章中被找到的位置(以英文字符表示的文档)。
ActionCharOffset:事件在文章中被找到的位置(以英文字符表示的文档)。
InRawText:这记录事件是否在原始未改变的原始文章中找到(值为1),或者是在需要高级自然语言处理算法来合成和重写文章文本以识别事件的文章中找到(值为0)。
Confidence:从文章中提取事件的置信度。
MentionDocLen:源文档的英文字符的长度(可以过滤出针对特定事件的短文章而不是随便提及事件的长篇文章)。
MentionDocTone:与事件表中的AvgTone字段的内容相同,但针对此特定文章计算。
MentionDocTranslationInfo:该字段在内部用分号分隔,用于记录机器翻译文档的出处信息,表明原始源语言和翻译系统的引用,用于对翻译文档进行处理。原文为英文的文件将是空白的。
- SRCLC。这是源语言代码,代表原始源材料语言的三字母ISO639-2代码。
- ENG。这是一个文本引用字符串,用于指示用于翻译文本的引擎和模型。这个字段的格式在不同的引擎上会随着时间的推移而变化。
Extras:该字段目前是空白的,但保留供将来使用,以便为所选材料特殊附加评估进行编码。
1.2.3 数据量大小
每15分钟的事件表的大小在100-200KB左右,每15分钟的Mention表在200-300KB左右。
每15分钟的事件表数据在1000-2000条左右,每15分钟的Mention表数据在4000-7000条左右。
1.2.4 获取方式
获取HTML地址:英文:http://data.gdeltproject.org/gdeltv2/masterfilelist.txt。
翻译所得数据:http://data