爬虫 - 数据解析 - xpath实战

最新推荐文章于 2024-02-06 23:01:33 发布

学习中的小菜鸟.

最新推荐文章于 2024-02-06 23:01:33 发布

阅读量132

点赞数

分类专栏：爬虫文章标签： python xpath

本文链接：https://blog.csdn.net/qq_33962481/article/details/115900770

版权

爬虫专栏收录该内容

30 篇文章 0 订阅

订阅专栏

文章目录

一、爬取图片
二、全国城市名称爬取
- 1.让两个xpath表达式都生效

一、爬取图片

import requests, os
from lxml import etree

if __name__ == '__main__':
    # 模拟浏览器请求
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36 Edg/90.0.818.39'
    }
    # 设置url
    url = "https://pic.netbian.com/4kmeinv/"
    # 获取url对应的html页面
    page_text = requests.get(url=url, headers=headers).text
    # 创建etree对象
    tu_html = etree.HTML(page_text)
    # 解析xml页面
    li_list = tu_html.xpath("//div[@class='slist']/ul/li")
    # 创建目录
    if not os.path.exists("./4ktupian"):
        os.mkdir("./4ktupian")
    
    for li in li_list:
        href = li.xpath("./a/img/@src")
        img_url = "https://pic.netbian.com/"+href[0]
        # 解决中文乱码
        img_name = li.xpath("./a/img/@alt")[0] + '.jpg'
        img_name = img_name.encode('iso-8859-1').decode('gbk')
        # 获取图片的二进制形式
        img_data = requests.get(url=img_url, headers=headers).content
        #图片路径
        img_path = './4ktupian/'+img_name
        # 存储图片
        with open(img_path, 'wb') as f:
            f.write(img_data)

二、全国城市名称爬取

1.让两个xpath表达式都生效

tree.xpath('xpath表达式一' | 'xpath表达式二') .

学习中的小菜鸟.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫 - 数据解析 - xpath实战

文章目录一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('igno
复制链接

扫一扫