from pprint import pprint
import re
import requests
import json
import time
import threading
# 要运行该爬虫,在命令行输入如下命令即可:
# 'python 百度图片cmd.py -k "张伯芝" -p 2 -d "pic_dir"'
# 'python 百度图片cmd.py -k "搜索关键词" -p 多少页应该是整数 -d "图片保存在哪里"'
# 1.加入了多线程下载速度更快
# 2.支持命令行运行,运行更方便
# 3.设置了自动翻页,下载数据更多。
class myThread_pic(threading.Thread):
"""docstring for myThead"""
def __init__(self, urllist,data_folder_name,non_repetitive_url,lock):
super(myThread_pic, self).__init__()
self.urllist = urllist
self.data_folder_name=data_folder_name
self.non_repetitive_url=non_repetitive_url
self.lock=lock
def run(self,):
global num
for i in self.urllist :
print('开始下载*******',num)
if i not in self.non_repetitive_url:
resp1=requests.get(i).content
with open(self.data_folder_name+r'/' +str(time.time())+
爬取百度图片---可以下载10000+张,多线程更快,python实现
本文详细介绍了如何使用Python进行大规模图片爬取,通过多线程技术提高速度,实现从百度图片下载超过10000张图片的流程,涵盖了网络请求、解析HTML、文件保存等关键步骤。
摘要由CSDN通过智能技术生成