一、Gdelt数据库
GDELT(www.gdeltproject.org)每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体--印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒都在推动全球社会的事件,GDELT为全球提供了一个自由开放的计算平台。
GDELT主要包含两大数据集:Event Database(事件数据库)、Global Knowledge Graph (GKG,全球知识图谱),记录了从1969年至今的新闻,并于每十五分钟更新一次数据。
Event Database记录了包含事件发生时间、事件参与者等61个字段,其中事件中参与者身份如下表所示:
EventBaseCode字段记录了事件的类别,共分为20大类,通过对类别的识别可以有效的筛选出需要分析的信息。
二、项目列表
本文将介绍以下几个任务(根据项目需求持续更新)通过Gdelt实现在规定时间内对指定关键词新闻的数量进行统计,并绘制图像
对Gdelt数据实现基于LSTM的时间序列预测
(1)通过Gdelt实现在规定时间内对指定关键词新闻的数量进行统计,并绘制图像
因为数据量巨大,本机难以处理。在这里,我们可以通过Gdelt提供的GAS对数据进行预处理。GAS包括了事件浏览器、事件网络、事件时间线、事件热力图、GKG网络、GKG时间线、GKG热力图、GKG浏览等功能。The Global Database of Events, Language, and Toneanalysis.gdeltproject.org
使用GKG Exporter模块初步筛选关键词对应新闻,官方介绍如下Searches all GKG records and returns matching GKG records and a list of source URLs. Intended primarily for advanced users with extensive scripting experience.
输出的数据包含以下两个文件Source List Produces a list of all of the source news articles for all of the matching GKG records.
Matching GKG Records Returns the r