python--千库网素材爬取

最新推荐文章于 2021-01-11 23:14:55 发布

狠卟乖

最新推荐文章于 2021-01-11 23:14:55 发布

阅读量4k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/qq_43595047/article/details/84749017

版权

python 专栏收录该内容

11 篇文章

订阅专栏

'''搞事情! 千库网圣诞素材图片抓取（仅一页，其他自己循环）'''
import requests													 #requests请求模块
import re  														 #re正则匹配模块
import random 														 #随机数字模块
response = requests.get('http://588ku.com/png-zt/68.html')  		 #访问千库网站后去响应；
index = response.text												 #获取到响应的文件；
url = re.findall(r'<div class="img-box"><a  href="(.*?)" target="_blank">',index) #正则匹配出每张图片的url
for i in url: 														 #循环处理每个url；
	response = requests.get(i) 									 #访问url得到响应信息；
	info = response.text 
	img_url_list = re.findall(r'src="(.*?)"/></div>', info) 		 #正则匹配出image的url链接   
	img_url = 'http:' + img_url_list.pop(0)						 #转为str形式；
	file_path = 'E:\python\练习\python_try\image\{}.{}'.format(random.randrange(60),'jpg') 		#设置存储路径，可更改
	with open(file_path, 'wb') as f:								 #保存图片 ‘wb’以二进制形式写入
		info_img_url = requests.get(img_url) 
		f.write(info_img_url.content)