字体反爬-起点月票

该博客主要介绍了一种处理起点网站月票数据的反爬虫策略。首先,通过分析页面获取所有月票数据的URL,接着利用正则表达式提取字体加密文件的URL。然后,发送请求获取字体文件并创建字体对象,通过字体关系映射表来解密月票数据。最后,使用XPath提取小说名称,并处理月票加密数据。
摘要由CSDN通过智能技术生成

字体反爬-起点月票

思路分析
1、得到该页面的所有月票数据
2、对月票url 发送请求 获取响应
3、提取字体文件的url,通过该url提取字体的关系映射表
4、保存数据
“”"

import re
import requests
from fontTools.ttLib import TTFont
from io import BytesIO
from lxml import etree

代码实现:

1、确定url

base_url = 'https://www.qidian.com/rank/yuepiao'

2、构建请求头

headers = {
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'
    ,
    'referer': 'https://www.qidian.com/rank'
    ,
    'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _csrfToken=BnhREF5ih538gczHjZfLlPHPVizX7VPUasM3nJ6g; newstatisticUUID=1620827924_867497743; _yep_uuid=7e4bf842-f915-978c-af83-07a16f41beac; e1=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22qd_C45%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_01%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D'

}

3、发送请求获取响应

response = requests.get(base_url, headers=headers)

print(response.content.decode()) # 结果中没有所需要的内容

4、从响应内容中提取字体加密文件的url 正则表达式


                
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值