GDELT情感时间线分析

Google BigQuery + 3.5M Books: Sample Queries调用方法 

SELECT DATE, sum(integer(REGEXP_EXTRACT(GCAM, r'wc:(\d+)'))) wordcount,avg(float(REGEXP_EXTRACT(GCAM, r'v19.1:([-\d.]+)'))) emot
FROM (TABLE_QUERY([gdelt-bq:internetarchivebooks], 'REGEXP_EXTRACT(table_id, r"(\d{4})") BETWEEN "1800" AND "2015"'))
group by DATE

 该 SQL 语句的具体解释如下:

  1. SELECT DATE, sum(integer(REGEXP_EXTRACT(GCAM, r'wc:(\d+)'))) wordcount, avg(float(REGEXP_EXTRACT(GCAM, r'v19.1:([-\d.]+)'))) emot:选择日期列、单词总数列和情感平均值列进行计算,其中单词总数列会从 GCAM 字段中提取每个文本的单词总数,情感平均值则会从 GCAM 字段中提取每个文本的情感值。

  2. FROM (TABLE_QUERY([gdelt-bq:internetarchivebooks], 'REGEXP_EXTRACT(table_id,r"(\d{4})") BETWEEN "1800" AND "2015"')):从 Internet Archive Books 数据集中(该数据集所属项目为 gdelt-bq)的所有表中筛选出表名符合正则表达式 "(\d{4})" 的表,该正则表达式匹配四位数字,即以年份为名称的表,再从这些表中筛选出年份在 1800 年到 2015 年之间的表作为查询的数据源。

  3. group by DATE:按照日期进行分组汇总。

综上,该 SQL 语句的作用是从 Internet Archive Books 数据集中获取 1800 年至 2015 年之间的所有图书文本数据,并统计每个日期的单词总数和情感平均值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值