问题
在写小爬虫时,遇到要下载很多PDF文档,如果直接在爬虫代码里实现文件下载功能,需要考虑断点续传、网络不稳定、爬虫被ban等问题,如何不使用代码批量下载这些文档呢,现在已经有了所有文件的下载地址,使用专门的下载软件,也可能会被文件服务器限速或阻止,最好是能用浏览器去下载,充分模拟正常用户的行为,但是把地址一个个输到浏览器中,手动下载,可太耗时了,那就不是模拟正常用户行为,而是真的人工手动下载了,哭唧唧,所以我们要找一个浏览器插件,来接收全部文件地址,实现一键批量下载。
解决方法
选择Chrome浏览器,安装Chrono插件(插件官网),秒解决,我们可以将全部文件地址,按照一行一个的格式放在文本文件中,然后复制全部地址,粘贴到插件中的地址框即可,记得要把chrome的“下载前询问每个文件的保存位置”选项关闭掉,否则下载每个文件时,都会弹出对话框,又变成收工了,所以,还要先在chrome中把文件下载位置修改为你的目标文件夹。