Xpath实现-分页爬取彼岸图网

最新推荐文章于 2023-09-26 12:04:57 发布

M.玛卡.巴卡

最新推荐文章于 2023-09-26 12:04:57 发布

阅读量763

点赞数 2

分类专栏：爬虫 python 文章标签： python 爬虫 xpath request 数据分析

本文链接：https://blog.csdn.net/qq_47239143/article/details/121549035

版权

使用Python、requests和lxml模块，通过XPath解析实现对彼岸图网美女图片的分页爬取。教程介绍了环境安装步骤及代码实现，展示了如何获取并存储指定分类的前六页图片链接。通过修改代码，可以轻松定制爬取更多页面和不同分类的内容。

摘要由CSDN通过智能技术生成

准备：

环境安装：

本文使用python，pycharm软件进行

首先在pycharm里面确保模块已经安装，本次需要使用的模块是requests模块和lxml模块

在pycharm里面点击左下角的Terminal，在里面分别输入pip install requests,pip install lxml即可

至此环境搭建完毕！！！接下来直接上代码

import requests
import os
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}

# 爬取多页
dirName = "GirlsLib"
if not os.path.exists(dirName):
    os.mkdir(dirName)
    
# 定义一个通用的url模板:不可变
url = 'https://pic.netbian.com/4kmeinv/index_%d.html'
for page in range(1,6):
    if page == 1:
        new_url = 'https://pic.netbian.com/4kmeinv/'
    else: