天堂图片网爬虫
注:爬取天堂图片网上的图片的爬虫,仅供交流学习之用,请勿用于商业用途
项目地址: https://github.com/AlionSSS/HeavenSpider
特性
- 网络请求-数据解析-文件存储 三层结构
- 多线程下载
- 网络自动重试
- 错误日志输出
- Python3
你可能需要
- pip3 install requests
- pip3 install beautifulsoup4
- pip3 install threadpool
- pip3 install retrying
项目结构
代码说明
- Main.py -> 主程序入口,业务处理
- ImageSpider.py -> 爬虫html解析
- HttpUtils.py -> 网络请求工具
- FileUtils.py -> 文件保存工具
- LogUtils.py -> 日志工具
- Constants.py -> 常量设置