from pprint import pprint
import re
import requests
import json
import time
import threading
# 要运行该爬虫,在命令行输入如下命令即可:
# 'python 百度图片cmd.py -k "张伯芝" -p 2 -d "pic_dir"'
# 'python 百度图片cmd.py -k "搜索关键词" -p 多少页应该是整数 -d "图片保存在哪里"'
# 1.加入了多线程下载速度更快
# 2.支持命令行运行,运行更方便
# 3.设置了自动翻页,下载数据更多。
class myThread_pic(threading.Thread):
"""docstring for myThead"""
def __init__(self, urllist,data_folder_name,non_repetitive_url,lock):
super(myThread_pic, self).__init__()
self.urllist = urllist
self.data_folder_name=data_folder_name
self.non_repetitive_url=non_repetitive_url
self.lock=lock
def run(self,):
global num
for i in self.urllist :
print('开始下载*******',num)
if i not in self.non_repetitive_url:
resp1=requests.get(i).content
with open(self.data_folder_name+r'/' +str(time.time())+
爬取百度图片---可以下载10000+张,多线程更快,python实现
最新推荐文章于 2024-07-07 09:46:06 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)