如何批量下载网站中的超链接(一次性下载网页中所有可能的PDF文件)
WebDownloader闲来无事写的一个网页资源下载器,有时候一个网页中,含有很多超链接,其中有很多资源,比如:视频/音频 图片 PDF文件 表格 其他超链接那么怎么批量获取呢?如果需要编写一个高扩展、分布式的抓取框架,应该包含哪些架构呢,这个之后再慢慢完善吧。首先,使用python中的requests库写一个简单的PDF获取器,下面是几个核心模块。超链接获取这部分...
原创
2019-03-07 02:18:01 ·
34092 阅读 ·
2 评论