cosplay 小姐姐 spider 项目

cosplay 小姐姐 spider 项目

  1. 模块
  2. requests
  3. xpath
  4. 开发工具: pytharm

开发环境

Python3.7

pycharm

项目流程

  1. 网站(Url)地址, 分析网页性质

  2. 发送网络请求

  3. 解析数据,

  4. 准备网站url地址和请求头headers
    1.
    项目网址

    1. 页面
    url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}
    
    1. 		# getall() 匹配到的所有数据url ,返回的是一个列表,
      		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
      		# print(data_list)
      

    在这里插入图片描述
    程序代码:

    	#1 真实的url地址(静态\动态), 系统分析网页性质
    import os
    
    import parsel as parsel
    from pip._vendor import requests
    
    def down_img():
    	"""下载cosplay文件"""
    	for page in range(1,6):
    
    		print("------正在爬取第{}页数据------".format(page))
    		url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
    		headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}
    
    		#2 发送网路请求(html\css<网页层叠样式表>js\....)
    		response = requests.get(url=url, headers=headers)
    		html_data = response.text
    		# print(html_data)
    
    		# 3 解析数据
    		# 3.1 转换数据类型 xpath
    		selector = parsel.Selector(html_data)
    
    		# getall() 匹配到的所有数据url ,返回的是一个列表,
    		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
    		# print(data_list)
    
    		for data in data_list:
    			resp = requests.get(url=data, headers=headers).text
    			sele = parsel.Selector(resp)
    			# 获取图片系列,名字
    			img_file_name = sele.xpath('//div[@class="ptitle"]/h1/text()').get()
    			# print(img_name)
    			# 这个系列所有图片的url
    			img_url_list = sele.xpath('//ul[@id="scroll"]//li/a/@href').getall()
    			# print(img_url_list)
    
    			try:
    				# 创建系列文件
    				os.mkdir ("img/" + img_file_name)
    				print(img_file_name)
    				for img_url in img_url_list:
    					resp = requests.get (url=img_url, headers=headers).text
    					sele = parsel.Selector (resp)
    					img_url_1 = sele.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
    					# print(img_url)
    					# # 这里请求的是,图片数据,即为二进制数据,(音频,视频,)都是二进制
    					img_data = requests.get(url=img_url_1, headers=headers).content
    					#
    					file_name = img_url_1.split("/")
    					# print(file_name)
    
    					with open("img/"+ img_file_name +"/" + file_name[-1], "wb") as f:
    						f.write(img_data)
    						print("保存完成", file_name[-1])
    
    			except Exception as e:
    				print(e)
     if __name__ == '__main__':
    	down_img()
    
    

最后的效果:

在这里插入图片描述
在这里插入图片描述

祝大家,中秋快乐,国庆双庆,学习,上共同进步

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值