批量爬取27270美女栏目图片
运行了一个晚上小水管太慢了,才爬了几万张图片。
做了一下重复抓取,设定抓取八次
写了一下日志,但是想了一下还是注释掉了
代码里面有很多修修改改的痕迹,
如果愿意的话可以拿去把这个程序修改一下
采集的网页是:http://www.27270.com/
当前使用的python版本是python3.5.2
# -*- coding:utf-8 -*-
import os
import sys
import time
import random
import logging
import requests
import multiprocessing
from multiprocessing import Pool
from bs4 import BeautifulSoup
img_href = []
a_index = {}
flag = 'true'
html_index = ''
error_num = []
error_href = []
error_path = []
index = {'start': '', 'end': ''}
url_index = 'http://www.27270.com/ent/meinvtupian/'
sys.setrecursionlimit(1000000)
# 获取logger实例,如果参数为空则返回root logger
logger = logging.getLogger("AppName")
# 指定logger输出格式
formatter = logging.Formatter('%(asctime)s %(levelname)-8s: %(message)s')
# 文件日志
file_handler = logging.FileHandler("test.log")
file_handler.setFormatter(formatter) # 可以通过setFormatter指定输出格式
# 为logger添加的日志处理器
logger.addHandler(file_handler)
# 指定日志的最低输出级别,默认为WARN级别
logger.setLevel(logging.INFO)
class flag(object):
def __init__(self):
f = True
def get_f(self):
return self.f
@staticmethod
def set_f(self):
self.f = False
def is_folder(file_name=''):
# 判断是否存在图片存储文件夹,如不存在则创建
cwd = os.getcwd() + file_name
if not os.path.exists(cwd):
os.mkdir(cwd)
print('已创建图片存储文件夹%s' % file_name)
else:
# print("检测到已有图片存储文件夹")
pass
def get_url(url='', host=''):
# 获取response
response = ''
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.167 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/