使用python3下载起点畅销榜前100名的书籍信息，并且根据日期保存为txt

olpszl

已于 2023-04-01 21:19:29 修改

阅读量445

点赞数

CC 4.0 BY-SA版权

文章标签： python 开发语言

于 2023-04-01 21:16:22 首次发布

本文链接：https://blog.csdn.net/olpszl/article/details/129903091

本文介绍了如何使用Python3通过xPath爬取起点小说畅销榜的书名和作者信息，并将数据按日期保存到TXT文件中。首先，通过requests库获取HTML源码，然后利用lxml库的etree模块解析内容，提取书名、作者和链接。最后，将数据保存到文件，每20条数据对应排行榜的一个位置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用python3下载起点畅销榜，并且根据日期保存为txt目录标题（文章格式较乱，请将页面的文本完全复制再进行观看）

使用xPath爬取起点小说畅销榜书名和作者

import requests
from lxml import etree
import time
import os

获取HTML源码

def getHtml(url):
try:
# 用户代理
headers = {‘User_Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36’}
# 获取请求对象
r = requests.get(url, timeout=5, headers=headers)
r.raise_for_status()

    # 返回页面内容
    return r.text
except Exception as e:
    print(e.__traceback__)

解析内容

def getInfo(text):
# 获取xpath解析对象
e = etree.HTML(text)
# 获取所有书的名称
names = e.xpath(‘//div[@class=“book-mid-info”]/h2/a/text()’)
# 获取所有作者
authors = e.xpath(‘//p[@class=“author”]/a[1]/text()’)
# 获取链接
links = e.xpath(‘//div[@class=“book-mid-info”]/h2/a/@href’)