Win 11系统使用Wget批量下载GDELT原始数据

一、准备工具和数据

wget下载:https://eternallybored.org/misc/wget/
建议下载最新版本,直接下载EXE文件即可(默认下载至“下载”路径)

GDELT原始数据:GDELT 1.0 Event Database :All GDELT Event Files (gdeltproject.org)
GDELT 1.0 Event Database Master CSV Data File List – English.

二、数据下载

1.在D盘新建文件夹wget_example。

2.将wget.exe从“下载”复制进“wget_example”,并在该文件夹新建txt文件,命名为filelist.txt。

3.打开GDELT原始数据网址(本文以1.0为例)

4.在浏览器页面中右键选择“检查”,点击“控制台(Console )”,在下方空白处输入以下代码提取该网页页面内所有超链接的http协议形式URLs。

urls = $$('a'); for (url in urls) console.log ( urls[url].href ); 

代码输入前

代码输入后

5.在桌面新建文本文件url.txt,选中需要年份范围的链接(如1979-20230706),复制,粘贴进该文件

桌面文件url.txt

6.桌面新建excel文件url.xlsx,在选项栏“数据”导入文本文件url.txt。

分隔符选择“空格”,点击“加载”。

删除Column1所在列以及Column2所在行,仅保留网址内容。

“另存为”:路径选择“桌面”,“保存类型”选择“文本文件(制表符分隔)”,记得重命名。

导入前

分隔符不要选错!

导入后

7.在桌面打开url2.txt,将所有链接复制粘贴至D盘filelist.txt,保存并关闭文件。

8.选中wget_example文件路径,快捷键“cmd”,“Enter”进入当前路径的命令窗口

9.输入以下代码,“Enter”开始运行。接下来等着就好啦~

wget -i filelist.txt

下载进程

10.下载完成后会显示相关信息。

下载完成!

完结撒花!!!

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值