一、准备工具和数据
wget下载:https://eternallybored.org/misc/wget/
建议下载最新版本,直接下载EXE文件即可(默认下载至“下载”路径)
GDELT原始数据:GDELT 1.0 Event Database :All GDELT Event Files (gdeltproject.org)
GDELT 1.0 Event Database :Master CSV Data File List – English.
二、数据下载
1.在D盘新建文件夹wget_example。
2.将wget.exe从“下载”复制进“wget_example”,并在该文件夹新建txt文件,命名为filelist.txt。
3.打开GDELT原始数据网址(本文以1.0为例)
4.在浏览器页面中右键选择“检查”,点击“控制台(Console )”,在下方空白处输入以下代码提取该网页页面内所有超链接的http协议形式URLs。
urls = $$('a'); for (url in urls) console.log ( urls[url].href );
代码输入前
代码输入后
5.在桌面新建文本文件url.txt,选中需要年份范围的链接(如1979-20230706),复制,粘贴进该文件
桌面文件url.txt
6.桌面新建excel文件url.xlsx,在选项栏“数据”导入文本文件url.txt。
分隔符选择“空格”,点击“加载”。
删除Column1所在列以及Column2所在行,仅保留网址内容。
“另存为”:路径选择“桌面”,“保存类型”选择“文本文件(制表符分隔)”,记得重命名。
导入前
分隔符不要选错!
导入后
7.在桌面打开url2.txt,将所有链接复制粘贴至D盘filelist.txt,保存并关闭文件。
8.选中wget_example文件路径,快捷键“cmd”,“Enter”进入当前路径的命令窗口
9.输入以下代码,“Enter”开始运行。接下来等着就好啦~
wget -i filelist.txt
下载进程
10.下载完成后会显示相关信息。
下载完成!
完结撒花!!!