GDELT数据库入门与了解(码字中...)

介绍

GDELT数据库是一个全球社会数据库,在Google Jigsaw的支持下,GDELT项目用超过100种语言监控世界上几乎每一个角落的广播、印刷和新闻,并识别人物、地点、组织、主题、来源、情感、计数、引用、图像和事件,每时每刻都在推动着全球社会,为整个世界的计算创造一个免费的开放平台。
简单地说,GDELT 项目是一个通过世界新闻媒体的眼睛看到的人类社会的实时开放数据全球图,几乎实时地深入到世界上最偏远角落的本地事件、反应、话语和情感,并使所有这一切成为一个开放的数据流,使人类社会的研究成为可能。

数据库特点

全球化
GDELT 监控来自世界各国的超过100种语言的印刷、广播和网络新闻媒体,持续更新世界各地的突发事件。它的历史档案可以追溯到1979年1月1日,每15分钟更新一次。通过其影响世界集体新闻媒体的能力,GDELT 超越了西方媒体的焦点,走向了一个更加全球化的视角,关注正在发生的事情以及世界对此的感受。
新兴媒体
GDELT不仅仅会从传统媒体采集数据,也会从收集一些新兴媒体的新闻和报道,并且涵盖的媒体数量与种类在不断提高,力求能够深入了解世界各地的社交媒体使用方式。
历史广度
GDELT 是第一个真正的数十年的全球活动数据库,通过一系列的合作和伙伴关系,不断扩大 GDELT 的覆盖范围,将提供两个多世纪的编纂的全球历史。
语言翻译
GDELT 跨语言平台代表了世界上最大的实时流媒体新闻机器翻译部署,GDELT 用65种语言监控的所有全球新闻,占其每日非英语监控量的98.4% ,被实时翻译成英语并进行处理。

数据库内容

GDELT Event Database事件数据库

GDELT 事件数据库记录了世界各地超过300类的物理活动,可追溯到1979年1月1日,每15分钟更新一次。为每个事件捕获近60个属性,包括动作的大致位置和涉及的属性。这可以将新闻媒体捕获的世界事件的文本描述转换为大型“全球电子表格”中的编码条目。
举个例子,可以把一个无结构的文字“美国昨天指责俄罗斯在克里米亚部署军队,最近与其士兵发生冲突,导致10名平民受伤”转化为三个结构化的数据库条目,分别记录为:美国指责俄罗斯,俄罗斯在克里米亚部署军队,以及俄罗斯与克里米亚发生军事冲突。

GDELT Global Knowledge Graph全球知识图

GKG使用现有的一些最复杂的命名实体和地理编码算法,汇编了每个新闻报道中的人、组织、公司、地点、数百万个主题和数千种情感的列表。
由此产生的网络图构建了一个覆盖整个世界的图表,不仅记录了正在发生的事情,还记录了它的背景、参与者以及世界对此的感受,每天都在更新。

GDELT Visual Global Knowledge Graph可视化全球知识图

世界范围内的新闻报道越来越多地充斥着图像,但历史上 GDELT 一直局限于全球新闻报道的文本内容。截至2016年1月,每天从几乎每个国家的媒体上随机抽取100万张图片,并通过谷歌的 Vision API 进行处理。
每张图片上都注明了它所描绘的对象和活动,可识别文本的转录,从视觉背景推断出地理位置,可识别的标志,甚至是每个人脸的情感。

GDELT GKG Special Collections

除了基于新闻的实况全球知识图表之外,还有许多专门的数据集,侧重于特定的专门信息来源或主题。

数据规格说明

GDELT 1.0 Event Database

EVENTID和日期属性
GlobalEventID.(integer)
它是一条记录的唯一标识符,通常它是递增标识的。
Day.(integer)
记录事件发生的日期,格式为YYYYMMDD。
MonthYear.(integer)
记录事件发生的年月,格式为YYYYMM。
Year.(integer)
记录事件发生的年份,格式为YYYY。
FractionDate.(numeric)

记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。
参与者属性
描述了事件中涉及的两个参与者的属性和特征,包括每个参与者的完整原始CAMEO代码、其正确名称和相关属性。这些属性表示地理、种族和宗教信仰以及参与者在环境中的角色(政治精英、军官、叛军等)。
Actor1Code. (character or factor)
参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(政治精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。
Actor1Name.(character)
参与者1 的真实名称。
Actor1CountryCode. (character or factor)
参与者1 的国家信息的CAMEO码,一定情况下可以为空。
Actor1KnownGroupCode.(character or factor)
如果参与者1是一个已知的组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。
Actor1EthnicCode. (character or factor)
如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。
Actor1Religion1Code. (character or factor)
如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。
Actor1Religion2Code. (character or factor)
如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。
Actor1Type1Code.(character orfactor)
此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、政治反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。
Actor1Type2Code.(character or factor)
同上
Actor1Type3Code.(character or factor)

同上
参与者2将重复以上所有属性。

数据库使用

下载

下载事件数据库,按照时间排列,选择需要的数据库,下载得到的是csv文件。打开下载的csv文件,可以参考网站的CSV.header.fieldids文件,如图
csv.header

python中使用

通过pandas以table方式读入数据
(以下代码需要输入自己的csv文件的绝对路径,本机存储D盘)

import pandas as pd
df=pd.read_table('D:/20210707.export.csv',engine='python')
print(df.to_string())

由于数据量庞大,一般情况下先选择查看前几行数据,了解数据类型及代表含义,输出前几行注意选择显示所有列

pd.set_option('display.max_columns',None)
print(df.head(3))

查看一行的所有列的信息

print(df.info())
  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 这是一份关于JESD204B的调试手册,其详细介绍了一些JESD204B技术相关的知识和调试经验。JESD204B协议是用于将数据传递给高速数据转换器或FPGA的标准化接口,因此该手册主要涉及该接口的调试和优化。 这份手册分为三个部分。第一部分简述了JESD204B的基础知识,包括接口架构、数据时钟和控制字等方面。第二部分主要介绍了在设计JESD204B系统时需要注意的方面,例如时钟选择、接口绑定和回声消除等。第三部分则提供了一些常见的JESD204B故障排除和调试指南。 对于使用JESD204B接口的设计师和工程师来说,该手册是一个非常实用的调试工具。通过仔细阅读和理解本手册的内容,我们可以更好地利用JESD204B协议接口,提高系统的性能和可靠性。同时,这份手册也提供了对于一些JESD204B故障的有效解决方案,从而可以节省项目开发时间和成本。总的来说,这份手册对于任何需要使用JESD204B接口的工程师都是一个非常宝贵的资源。 ### 回答2: JESD204B是一种用于高速数字信号传输的接口标准,这个标准定制了数字接口的物理层和协议层规范,使得数字信号的传输更为快速和可靠。《jesd 204b调试手册_文_ti.pdf》是关于JESD204B调试方面的文手册。 该手册首先介绍了JESD204B的标准和相关的术语,然后详细讲解了如何进行JESD204B的调试。手册列出了常见的JESD204B连接问题,例如时钟同步问题、失步、帧同步等问题,并提供了解决这些问题的方法。此外,手册介绍了一些常见的JESD204B调试工具和测量设备,并介绍了如何使用这些工具进行诊断和调试。 总体而言,该手册非常详细地介绍了如何进行JESD204B的调试,对初学者和专业人士都非常有帮助。通读此手册,可以让人了解JESD204B标准的基础和高级概念,以及在实际应用如何解决JESD204B连接问题。无论是在设计JESD204B系统还是在调试JESD204B接口时,这份手册都是一份非常宝贵的参考资料。 ### 回答3: JESD 204B调试手册_文_ti.pdf是一份介绍JESD 204B协议的调试手册。在PDF,我们可以学习到JESD 204B协议的原理、注释、调试步骤和示例代码。主要包含以下内容: 首先,手册介绍了JESD 204B协议及其优势,说明了该协议如何提高数据转换系统的性能和可扩展性。同时,手册介绍了一些重要的基础知识,如码字同步和框同步等。 其次,手册提供了一个针对JESD 204B协议的详细描述,包括多种不同类型的连接和数据传输方式。这些详细描述包括数据帧格式、传输链路和打包等。手册还介绍了一些基于JESD 204B协议的两个关键字段——K值和F值。 最后,手册介绍了一些常用的调试技术,如时钟同步、状态检测和数据流跟踪等,并且提供了详细的步骤和示例代码来说明如何使用这些技术进行调试。 总之,JESD 204B调试手册_文_ti.pdf提供了一个很好的入门级别的指南,它可以帮助工程师们深入了解JESD 204B协议及其相关技术。对于任何想了解和掌握JESD 204B协议的工程师来说,这是一份非常有价值的参考资料。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值