python爬虫爬取美女图片

  1. 先找到目标网页下所有图片链接
  2. 访问所有图片链接,将链接网页中的所有图片下载到本地
from urllib import request,parse
import re

#<img width="250" height="317" src="http://5b0988e595225.cdn.sohucs.com/images/20180914/7913305228e94bc3ab4676a396ca0f61.jpeg">

def craw(proxy_addr,headers,url,flag):
	if(flag):
		proxy = request.ProxyHandler({"http":proxy_addr})
		opener = request.build_opener(proxy,request.HTTPHandler(debuglevel=1))
	else:
		opener = request.build_opener(request.HTTPHandler(debuglevel=0))

	opener.addheaders = [headers]
	request.install_opener(opener)

	data = request.urlopen(url).read()

	pat1 = 'http://www.shuaia.net/meinv/2018-10-10/\d+.html'
	pat2 = 'http://5b0988e595225.cdn.sohucs.com/images/.+?\.jpeg'
	
	pattern1 = re.compile(pat1)
	html = pattern1.findall(str(data))#找到当前页面所有有图片的连接

	html = list(set(html))#网页去重
	print(html)

	img = []
	for page in html:
		data = request.urlopen(page).read()
		pattern2 = re.compile(pat2)
		img.append(pattern2.findall(str(data)))#找到图片
	
	return img


if(__name__=="__main__"):
	url = "http://www.shuaia.net/index.html"
	proxy_addr = "122.226.0.82:80"
	header = ("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Mobile Safari/537.36")

	data = craw(proxy_addr,header,url,False)
	print(len(data))

	count = 0
	for page in data:
		for img in page:
			count = count+1
			file_addr = "C:\\Users\\asus\\Desktop\\python爬虫\\爬虫代码\\beauty\\"+str(count)+".jpeg"
			#img = img[str(img).index("http"):]
			print(img)
			request.urlretrieve(img,filename = file_addr)

在这里插入图片描述

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值