简单学会！xpath的使用以及获取图片以及保存至本地

最新推荐文章于 2024-06-05 20:50:49 发布

大白菜加油

最新推荐文章于 2024-06-05 20:50:49 发布

阅读量1.9k

点赞数

分类专栏：爬虫案例文章标签：爬虫 xml python

本文链接：https://blog.csdn.net/m0_61848611/article/details/125088839

版权

前言

xpath是啥，其全称为XML Path Language，即XML路径语言。这是在XML文档中查找信息的语言，可以用来在获取的页面源代码中提取页面信息。我觉得用起来也很简洁，它返回的对象是一个列表。

准备

这是等下要用到的库，requests和urllib用于请求并返回页面信息，lxml库xpath做解析用，csv用来保存csv文件，time是为了后面的缓冲，以免访问太过于频繁。如果没有安装的话，在控制台处pip install 就可以了。

import requests 
from lxml import etree
import csv
import time
import urllib.request

定义保存的函数

这次的内容包括标题、作者、描述，所以定义的函数的参数就如图示，值得注意的是，这里用utf-8-sig写入csv文件，我用utf-8写入时出现乱码，所以加了一个-sig，sig是标签的意思，因为有可能python写入csv时杂夹一些标签，这样就容易出现乱码，然后用遍历，一行一行的写入。

def save(title,author,describe):
    with open("宠物领养信息.csv",'a',encoding='utf-8-sig',newline = "") as f:
        w=csv.writer(f)
        for i in range(0,len(title)):
            w.writerow([title[i],author[i],descr

最低0.47元/天解锁文章

大白菜加油

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
简单学会！xpath的使用以及获取图片以及保存至本地

xpath是啥，其全称为XML Path Language，即XML路径语言。这是在XML文档中查找信息的语言，可以用来在获取的页面源代码中提取页面信息。我觉得用起来也很简洁，它返回的对象是一个列表。这是等下要用到的库，requests和urllib用于请求并返回页面信息，lxml库xpath做解析用，csv用来保存csv文件，time是为了后面的缓冲，以免访问太过于频繁。如果没有安装的话，在控制台处pip install 就可以了。定义保存的函数这次的内容包括标题、作者、描述，所以定义的函数的参
复制链接

扫一扫

专栏目录