爬取百度图片---可以下载10000+张，多线程更快，python实现

LKJLKJKL

于 2019-06-27 14:00:36 发布

阅读量2.2k

点赞数 1

分类专栏：爬虫公开文章标签： python 多线程爬虫

本文链接：https://blog.csdn.net/LKJLKJKL/article/details/93872292

版权

本文详细介绍了如何使用Python进行大规模图片爬取，通过多线程技术提高速度，实现从百度图片下载超过10000张图片的流程，涵盖了网络请求、解析HTML、文件保存等关键步骤。

摘要由CSDN通过智能技术生成

from pprint import pprint
import re
import requests
import json
import time
import threading

# 要运行该爬虫，在命令行输入如下命令即可：
# 'python 百度图片cmd.py -k "张伯芝"  -p 2 -d "pic_dir"'
# 'python 百度图片cmd.py -k "搜索关键词"  -p 多少页应该是整数 -d "图片保存在哪里"'

# 1.加入了多线程下载速度更快
# 2.支持命令行运行，运行更方便
# 3.设置了自动翻页，下载数据更多。

class myThread_pic(threading.Thread):
	"""docstring for myThead"""
	def __init__(self, urllist,data_folder_name,non_repetitive_url,lock):
		super(myThread_pic, self).__init__()
		self.urllist = urllist
		self.data_folder_name=data_folder_name
		self.non_repetitive_url=non_repetitive_url
		self.lock=lock
	def run(self,):
		global num
		for i in self.urllist :
			print('开始下载*******',num)
			if i not in self.non_repetitive_url:
				resp1=requests.get(i).content
				with open(self.data_folder_name+r'/' +str(time.time())+