前言
xpath是啥,其全称为XML Path Language,即XML路径语言。这是在XML文档中查找信息的语言,可以用来在获取的页面源代码中提取页面信息。我觉得用起来也很简洁,它返回的对象是一个列表。
准备
这是等下要用到的库,requests和urllib用于请求并返回页面信息,lxml库xpath做解析用,csv用来保存csv文件,time是为了后面的缓冲,以免访问太过于频繁。如果没有安装的话,在控制台处pip install 就可以了。
import requests
from lxml import etree
import csv
import time
import urllib.request
定义保存的函数
这次的内容包括标题、作者、描述,所以定义的函数的参数就如图示,值得注意的是,这里用utf-8-sig写入csv文件,我用utf-8写入时出现乱码,所以加了一个-sig,sig是标签的意思,因为有可能python写入csv时杂夹一些标签,这样就容易出现乱码,然后用遍历,一行一行的写入。
def save(title,author,describe):
with open("宠物领养信息.csv",'a',encoding='utf-8-sig',newline = "") as f:
w=csv.writer(f)
for i in range(0,len(title)):
w.writerow([title[i],author[i],descr