使用的 python 库
1.request 库,用于向服务器发起请求信息。
2.lxml 库,用于解析服务器返回的 HTML 文件。
3.time 库,设置爬取时间差,防止短时间内多次页面请求而被限制访问。
4.xwlt 库,用于将数据存入 excel 表格之中。
爬取思路
1.爬取页面的网址为https://www.qidian.com/all?page=1page 的值不一样,由此可以得到所有页面的网址。,经过手动浏览可以发现页面之间
2.需要爬取的信息如下图所示:
在这里插入图片描述
3.在信息提取完成之后使用 xlwt 库将它们存入 excel 表格中。
爬虫代码
import xlwt
from lxml import etree
import request
import time
# 伪装请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'
' (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}
all_info_list = [] # 存储每部小说的各种信息列表
# 定义获取爬虫信息的函数
def get_info(url):
res = requests.get(url, headers=headers)
selector = etree.HTML(res.text)
# 采用 xpath 方法对网页信息进行搜索