最近好久没写代码了,突然想热热手于是就相中了起点中文网(●ˇˇ●)
废话不多说,献上代码
我们先来分析分析起点中文网的网站
https://www.qidian.com/rank/yuepiao/year2022-month01/
正常操作我们进入网站之后,按f12,点击network ,如下图
我们需要找到我们要爬取的内容,今天我们就爬取标题和月票数吧
**找到箭头所指的网址点进去查看它的预览(Preview)查找了之后发现,没有我们要找的数据,我们再看是否在Response中,用CTRL+f来搜索星门会发现在这个里面
**
这样我们就得到了题目,获取题目的代码如下
import random
import requests
from lxml import etree
# 确定起点中文网月票排行榜网址
url = 'https://www.qidian.com/rank/yuepiao/year2022-month01/'
# 请求头
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C19%22%2C%22l1%22%3A4%7D; e2=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A4%7D; _yep_uuid=fd95b6b7-090e-c6e5-cb8c-b8387e5b29ab; _ga=GA1.1.376581816.1643601078; newstatisticUUID=16436010