彼岸图网免费图片爬取
源码地址
https://gitee.com/Gmnesia/BATWFreeImageCrawl.git
介绍
爬取彼岸图网的图片简介的图片
软件架构
开发语言:java
爬虫框架:WebCollector
工具类:httpclient
第三方平台:太阳http
安装教程
- 克隆下代码以后找到BATWFreeImageCrawl文件
- 修改第155行的文件保存位置
- 修改第207行从太阳http获取的ip列表(ip间隔使用英文逗号“,”进行分割)
- 运行main方法即可
运行结果
下载下来的照片这里是导入到minio中了,本地没有在保存
使用说明
主要用来做学习使用,如有问题联系1211441748@qq.com邮箱
注意事项
一、ip失效问题
- 内容中用到第三方的太阳http获取ip做代理,彼岸图网的防爬取限制挺多,一个ip多次访问后好久都不能恢复,使用时尽量先看下太阳http,先获取到ip,避免自己的ip被封
- 太阳http获取到的ip存活时间5分钟,半个小时不等,因此在爬取的过程中执行太长时间会出现ip失效,一开始初始化过多同样也会因为执行时间过长导致ip失效
- 如果一下整站爬取不下来,可以考虑分类爬取,或者每个分类的多少页多少页分段爬取
二、图片清晰度
- 爬取的是彼岸图网的免费图片,不是4k,因此像素一般,仅做爬虫项目学习使用,
- 如想获取4k图片,可看下彼岸图网的会员等,获取到用户信息放到请求中进行爬取
- 但是一个年会员账号每天只能下载200张,2022年4月左右,爬取下来的简介图大概在17000张左右,用一个会员每天执行可能要三个月。。。。。。