cosplay 小姐姐 spider 项目

最新推荐文章于 2024-06-13 15:30:07 发布

离开你，我才发现

最新推荐文章于 2024-06-13 15:30:07 发布

阅读量386

点赞数

分类专栏： web架构文章标签： web

本文链接：https://blog.csdn.net/k8vg___/article/details/108861448

版权

web架构专栏收录该内容

11 篇文章 0 订阅

订阅专栏

cosplay 小姐姐 spider 项目

模块
requests
xpath
开发工具： pytharm

开发环境

Python3.7

pycharm

项目流程

网站（Url）地址，分析网页性质
发送网络请求
解析数据，

准备网站url地址和请求头headers
1.
项目网址

url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}

		# getall() 匹配到的所有数据url ，返回的是一个列表，
		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
		# print(data_list)

在这里插入图片描述
程序代码：

	#1 真实的url地址（静态\动态）， 系统分析网页性质
import os

import parsel as parsel
from pip._vendor import requests

def down_img():
	"""下载cosplay文件"""
	for page in range(1,6):

		print("------正在爬取第{}页数据------".format(page))
		url = "http://www.win4000.com/meinvtag26_{}.html".format(page)
		headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}

		#2 发送网路请求（html\css<网页层叠样式表>js\....)
		response = requests.get(url=url, headers=headers)
		html_data = response.text
		# print(html_data)

		# 3 解析数据
		# 3.1 转换数据类型 xpath
		selector = parsel.Selector(html_data)

		# getall() 匹配到的所有数据url ，返回的是一个列表，
		data_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
		# print(data_list)

		for data in data_list:
			resp = requests.get(url=data, headers=headers).text
			sele = parsel.Selector(resp)
			# 获取图片系列，名字
			img_file_name = sele.xpath('//div[@class="ptitle"]/h1/text()').get()
			# print(img_name)
			# 这个系列所有图片的url
			img_url_list = sele.xpath('//ul[@id="scroll"]//li/a/@href').getall()
			# print(img_url_list)

			try:
				# 创建系列文件
				os.mkdir ("img/" + img_file_name)
				print(img_file_name)
				for img_url in img_url_list:
					resp = requests.get (url=img_url, headers=headers).text
					sele = parsel.Selector (resp)
					img_url_1 = sele.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
					# print(img_url)
					# # 这里请求的是，图片数据，即为二进制数据，（音频，视频，）都是二进制
					img_data = requests.get(url=img_url_1, headers=headers).content
					#
					file_name = img_url_1.split("/")
					# print(file_name)

					with open("img/"+ img_file_name +"/" + file_name[-1], "wb") as f:
						f.write(img_data)
						print("保存完成", file_name[-1])

			except Exception as e:
				print(e)
 if __name__ == '__main__':
	down_img()

最后的效果：

在这里插入图片描述

祝大家，中秋快乐，国庆双庆，学习，上共同进步

离开你，我才发现

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
cosplay 小姐姐 spider 项目

cosplay 小姐姐 spider 项目模块requestsxpath开发工具： pytharm开发环境Python3.7pycharm项目流程网站（Url）地址，分析网页性质发送网络请求解析数据，准备网站url地址和请求头headers1.url = "http://www.win4000.com/meinvtag26_{}.html".format(page)headers = {"User-Agent":"Mozilla/5.0 (Wind
复制链接

扫一扫

专栏目录