爬取测试网站
这个网站是百度搜的壁纸网站 练手用的 第一次用xpath可能不太熟练
下面是网址
http://www.win4000.com/meinvtag2_1.html
获取该网站多个主页的url
def get_url_list(): #得到多个主页
li = []
for i in [29, 31, 32, 33, 34, 35]: #26, 28,
for j in range(1,5):
try:
url = f"http://www.win4000.com/meinvtag{i}_{j}.html"
status = requests.get(url).status_code
if status == 200:
li.append(url)
else:
break
except:
pass
return li
获取主页中相册首页url
def get_url(url): # 得到主页网址中,我需要的页面,相册第一张图片网页的html
ret = requests.get(url=url,headers=headers) # 请求主页html源码
ret2 = ret.text # 将请求的html源码放入ret2变量
selector = parsel.Selector(ret2) # selector方法把ret转换数据类型 放入变量selector
url2_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall() # getall方法提取每个相册首页源码
# print(url2_list)
return url2_list
得到相册内所有img图片网址
def get_img_url(url): # 得到相册内所有img图片的网址url
li = []
for i in