介绍
GDELT数据库是一个全球社会数据库,在Google Jigsaw的支持下,GDELT项目用超过100种语言监控世界上几乎每一个角落的广播、印刷和新闻,并识别人物、地点、组织、主题、来源、情感、计数、引用、图像和事件,每时每刻都在推动着全球社会,为整个世界的计算创造一个免费的开放平台。
简单地说,GDELT 项目是一个通过世界新闻媒体的眼睛看到的人类社会的实时开放数据全球图,几乎实时地深入到世界上最偏远角落的本地事件、反应、话语和情感,并使所有这一切成为一个开放的数据流,使人类社会的研究成为可能。
数据库特点
全球化
GDELT 监控来自世界各国的超过100种语言的印刷、广播和网络新闻媒体,持续更新世界各地的突发事件。它的历史档案可以追溯到1979年1月1日,每15分钟更新一次。通过其影响世界集体新闻媒体的能力,GDELT 超越了西方媒体的焦点,走向了一个更加全球化的视角,关注正在发生的事情以及世界对此的感受。
新兴媒体
GDELT不仅仅会从传统媒体采集数据,也会从收集一些新兴媒体的新闻和报道,并且涵盖的媒体数量与种类在不断提高,力求能够深入了解世界各地的社交媒体使用方式。
历史广度
GDELT 是第一个真正的数十年的全球活动数据库,通过一系列的合作和伙伴关系,不断扩大 GDELT 的覆盖范围,将提供两个多世纪的编纂的全球历史。
语言翻译
GDELT 跨语言平台代表了世界上最大的实时流媒体新闻机器翻译部署,GDELT 用65种语言监控的所有全球新闻,占其每日非英语监控量的98.4% ,被实时翻译成英语并进行处理。
数据库内容
GDELT Event Database事件数据库
GDELT 事件数据库记录了世界各地超过300类的物理活动,可追溯到1979年1月1日,每15分钟更新一次。为每个事件捕获近60个属性,包括动作的大致位置和涉及的属性。这可以将新闻媒体捕获的世界事件的文本描述转换为大型“全球电子表格”中的编码条目。
举个例子,可以把一个无结构的文字“美国昨天指责俄罗斯在克里米亚部署军队,最近与其士兵发生冲突,导致10名平民受伤”转化为三个结构化的数据库条目,分别记录为:美国指责俄罗斯,俄罗斯在克里米亚部署军队,以及俄罗斯与克里米亚发生军事冲突。
GDELT Global Knowledge Graph全球知识图
GKG使用现有的一些最复杂的命名实体和地理编码算法,汇编了每个新闻报道中的人、组织、公司、地点、数百万个主题和数千种情感的列表。
由此产生的网络图构建了一个覆盖整个世界的图表,不仅记录了正在发生的事情,还记录了它的背景、参与者以及世界对此的感受,每天都在更新。
GDELT Visual Global Knowledge Graph可视化全球知识图
世界范围内的新闻报道越来越多地充斥着图像,但历史上 GDELT 一直局限于全球新闻报道的文本内容。截至2016年1月,每天从几乎每个国家的媒体上随机抽取100万张图片,并通过谷歌的 Vision API 进行处理。
每张图片上都注明了它所描绘的对象和活动,可识别文本的转录,从视觉背景推断出地理位置,可识别的标志,甚至是每个人脸的情感。
GDELT GKG Special Collections
除了基于新闻的实况全球知识图表之外,还有许多专门的数据集,侧重于特定的专门信息来源或主题。
数据规格说明
GDELT 1.0 Event Database
EVENTID和日期属性
GlobalEventID.(integer)
它是一条记录的唯一标识符,通常它是递增标识的。
Day.(integer)
记录事件发生的日期,格式为YYYYMMDD。
MonthYear.(integer)
记录事件发生的年月,格式为YYYYMM。
Year.(integer)
记录事件发生的年份,格式为YYYY。
FractionDate.(numeric)
记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。
参与者属性
描述了事件中涉及的两个参与者的属性和特征,包括每个参与者的完整原始CAMEO代码、其正确名称和相关属性。这些属性表示地理、种族和宗教信仰以及参与者在环境中的角色(政治精英、军官、叛军等)。
Actor1Code. (character or factor)
参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(政治精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。
Actor1Name.(character)
参与者1 的真实名称。
Actor1CountryCode. (character or factor)
参与者1 的国家信息的CAMEO码,一定情况下可以为空。
Actor1KnownGroupCode.(character or factor)
如果参与者1是一个已知的组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。
Actor1EthnicCode. (character or factor)
如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。
Actor1Religion1Code. (character or factor)
如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。
Actor1Religion2Code. (character or factor)
如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。
Actor1Type1Code.(character orfactor)
此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、政治反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。
Actor1Type2Code.(character or factor)
同上
Actor1Type3Code.(character or factor)
同上
参与者2将重复以上所有属性。
数据库使用
下载
下载事件数据库,按照时间排列,选择需要的数据库,下载得到的是csv文件。打开下载的csv文件,可以参考网站的CSV.header.fieldids文件,如图
python中使用
通过pandas以table方式读入数据
(以下代码需要输入自己的csv文件的绝对路径,本机存储D盘)
import pandas as pd
df=pd.read_table('D:/20210707.export.csv',engine='python')
print(df.to_string())
由于数据量庞大,一般情况下先选择查看前几行数据,了解数据类型及代表含义,输出前几行注意选择显示所有列
pd.set_option('display.max_columns',None)
print(df.head(3))
查看一行的所有列的信息
print(df.info())