Python爬虫从入门到精通:（9）数据解析_xpath解析2_爬取4K高清动漫图片_Python涛哥

最新推荐文章于 2023-03-22 22:07:47 发布

Python涛哥

最新推荐文章于 2023-03-22 22:07:47 发布

阅读量374

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/tao5090694/article/details/120445423

版权

python 同时被 2 个专栏收录

48 篇文章 14 订阅

订阅专栏

爬虫

45 篇文章 18 订阅

订阅专栏

使用xpath爬取4K高清动漫图片名称和图片数据
在这里插入图片描述

爬取当前页：

# 创建文件夹 存储图片
dirName = 'GirlsLib'
if not os.path.exists(dirName):
    os.mkdir(dirName)

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}

url = 'https://pic.netbian.com/4kdongman/'
response = requests.get(url=url, headers=headers)
response.encoding = 'gbk'  # 页面的编码是gbk
page_text = response.text

# 解析图片名称+图片数据
tree = etree.HTML(page_text)

然后我们来分析下：
在这里插入图片描述

打开浏览器抓包工具，我们可以定位到图片存储的到的指定的<li>标签

这段代码前我们需要用到局部数据解析，什么是局部数据分析呢？

先看下代码:

li_list = tree.xpath('//div[@class="slist"]/ul/li')

for li in li_list:
    type(li)  # li的数据类型和tree的数据类型一样（<class 'lxml.etree._Element'>），那么li也可以调用xpath方法
    
    title = li.xpath('./a/img/@alt')[0] + '.jpg'  # 进行局部数据解析.返回的是列表，所以这里这[0]    
    img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]  
    
    img_data = requests.get(img_src, headers=headers).content
    imgPath = dirName + '/' + title
    with open(imgPath, 'wb') as f:
        f.write(img_data)
        print(title + '保存成功！！！')

步骤说明：

存储的是定位到的指定的<li>标签

局部数据解析：

我们要将定位到的页面中的标签作为待解析的数据。再次使用xpath表达式解析的数据
在局部数据解析的时候,xpath表达式中药使用./的操作，./表示的就是当前的局部数据（xpath的调用者）

这样，我们就完整提取出图片名称和图片地址了。

爬取多页（5页）:

我们看到第二页的url:

ulr=https://pic.netbian.com/4kdongman/index_2.html

很容易知道分页都是index_d 的

这样，定义一个通用的url模板，

可以利用format函数来实现。

但我们发现第一页和第二页的url不同，所以还是要加个判断。

for page in range(1, 6):
    if page == 1:
        new_url = 'http://pic.netbian.com/4kdongman/'
    else:
        new_url = format(url % page)

后续的操作就可以复制之前的代码加进循环里，就可以实现多页下载了！

分享小技巧：xpath表达式也可以在浏览器抓包工具里复制的
在这里插入图片描述

完整代码如下：

import os
import requests
from lxml import etree

# 创建保存路径
dirName = 'GirlsLib'
if not os.path.exists(dirName):
    os.mkdir(dirName)
    
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}

url = 'https://pic.netbian.com/4kdongman/index_%d.html'

for page in range(1, 6):
    if page == 1:
        new_url = 'http://pic.netbian.com/4kdongman/'
    else:
        new_url = format(url % page)

    # 复制之前的代码加进循环里
    response = requests.get(url=new_url, headers=headers)
    response.encoding = 'gbk'
    page_text = response.text

    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')

    for li in li_list:
        title = li.xpath('./a/img/@alt')[0] + '.jpg' 
        img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        img_data = requests.get(img_src, headers=headers).content
        imgPath = dirName + '/' + title
        with open(imgPath, 'wb') as f:
            f.write(img_data)
            print(title + '保存成功！！！')