谷歌GDELT数据说明

鉴于评论区疑问较多,因此根据评论建议及参考文章进行了修改完善,主要修改了50~56字段。
此外,若有任何疑问,请大家务必以GDELT官网文章为主。
感谢大家批评指正。
2020-04-28


发现有一篇文章写的比较清晰,比我的说明要准确一点,[数据] GDELT项目介绍。最近比较忙,就先不对照两篇文章对我的内容进行优化了,后续有机会再进行修改。


CAMEO Con ict and Mediation Event Observations Event and Actor Codebook这个文档对GDELT中300多类事件以及各种机构组织代码、宗教代码、民族代码进行了说明。
GDELT论文
2018-12-23

本文主要介绍GDELT数据以及对其58个字段进行说明,数据的下载代码会放在我的另一篇文章中,或者也可以直接在我的代码片中下载。


之前因为学习需要下载了谷歌的GDELT数据,在国内也叫疙瘩汤,GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体–印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒都在推动全球社会的事件,GDELT为全球提供了一个自由开放的计算平台。

GDELT2.0每隔15分钟提供全球事件数据。这些事件从1979年1月1日开始一直到今日。GDELT第一项服务就是免费的数据下载。同时GDELT还在谷歌的BigQuery上提供了数据API,这样您可以使用谷歌的分析工具进行分析。GDELT的数据除了事件数据外,还提供了GKG数据,也就是全球知识图(Global Knowledge Graph)的数据。在国内您也可以到疙瘩汤(www.gdelt.cn)上下载数据。

GDELT数据每条记录有58个字段,字段间以\t分割,在读取时需要注意,每个字段代表着不同的含义,有谷歌自动提取的时间有关的信息,事件有关对象、事件类型等,从2013.4.1开始提供新闻的网页地址,但是不提供网页内容,需要的可以通过链接自己下载,在2013.4.1之前的数据只能使用谷歌已经分析好的结果,个人觉得这个不太方便,缺少了网页原文,很多工作都做不了,而谷歌分析的结果又是相当简单和粗糙的,直接拿来使用价值有限。

在谷歌官网上有对这58个字段的说明,但是不全,看了提供的cookbook也不全,网上的各种资料都是对官网的内容的翻译,当时数了好几遍,确实很多字段是直接跳过没有说明的,所以下面就放上我根据自己的理解和猜测补全那些缺失的解释,不保证完全正确,权当参考。


通过上文链接可下载zip类型的gdelt数据压缩包,解压后为csv格式,每个csv文件内的数据均有58个字段(2013年3月以前的数

  • 11
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 45
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 45
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值