使用python3下载起点畅销榜,并且根据日期保存为txt目录标题(文章格式较乱,请将页面的文本完全复制再进行观看)
使用xPath爬取起点小说畅销榜书名和作者
import requests
from lxml import etree
import time
import os
获取HTML源码
def getHtml(url):
try:
# 用户代理
headers = {‘User_Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36’}
# 获取请求对象
r = requests.get(url, timeout=5, headers=headers)
r.raise_for_status()
# 返回页面内容
return r.text
except Exception as e:
print(e.__traceback__)
解析内容
def getInfo(text):
# 获取xpath解析对象
e = etree.HTML(text)
# 获取所有书的名称
names = e.xpath(‘//div[@class=“book-mid-info”]/h2/a/text()’)
# 获取所有作者
authors = e.xpath(‘//p[@class=“author”]/a[1]/text()’)
# 获取链接
li