目录
爬取网站 : http://www.mmjpg.com
写代码是一种艺术,来源于生活并且服务于生活
想要看妹子的图片怎么办,上网找阿,于是某度之
一看排名第一,来头不小,那就决定是你了
觉得不能只是走马观花地浏览,所以决定把整个网站的套图全都爬下来,以便以后慢慢品味
配上一杯咖啡以及网易云一个电音歌单,经过指尖的一阵阵翻云覆雨之后,代码算是写好了。测试好,没问题,走你!
不知不觉中,套图已全部爬取完成
全站 950 套图片,共 3.86 G
爬虫使用多进程,学校 8M 的网速基本满速
图片违规
源码
import os
import time
import threading
from multiprocessing import Pool, cpu_count
import requests
from bs4 import BeautifulSoup
HEADERS = {
'X-Requested-With': 'XMLHttpRequest',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
'Referer': "http://www.mmjpg.com"
}
DIR_PATH = r"E: