豆瓣搜索爬虫

最新推荐文章于 2024-06-11 11:44:35 发布

keenanli

最新推荐文章于 2024-06-11 11:44:35 发布

阅读量1.3k

点赞数 3

分类专栏： python爬虫文章标签：豆瓣读书 Python 爬虫 xxhash pblist

本文链接：https://blog.csdn.net/qq_35994802/article/details/99681457

版权

4 篇文章 0 订阅

订阅专栏

豆瓣读书

图书数据是直接加密的。在window.DATA 里面

window.__data__参数破解：?base64 + xxHash + bplist?

base64

13992 行，e.from(r, “base64”) 很明显的提示 --> base解码过程

我们使用Python库 base64 进行验证

import base64
base64.b64decode(window.__data__)

13996 行，Object(o.hash) --> 肯定是一个hash 算法。我们下一步进入这个函数。
xxhash
4025 行 update().digest() --> 用过Python hashlib库的人是不是感觉很熟悉

4039 - 4043 行五个 magic constants --> 进一步确认是xxhash 算法

import xxhash
# u 是base64 解密之后的最后16个字节
sec_key = xxhash.xxh64_hexdigest(u, 41405).encode("utf-8")

xxHash 是一种非常快速的非加密哈希算法。使用教程

我们继续向下执行代码，这里初步怀疑是bplist 解析过程（为什么我会知道，后面会介绍bplist的知识）
在这里插入图片描述

我们继续调试

在这里插入图片描述

看到这。不用怀疑这就是pblist解析过程。但是我们观察bplist 对象表会发现：豆瓣改变了objType= 4,5,6的解析方式。

豆瓣bplist

具体解析过程请看源码。

objType	(hex）	说明
单字节	0x0X	X=0: 返回 null X=8: false X=9: true X=F: b"", 填充字节
整数	0x1X	后面跟的2^X个字节就是这个数字的值
浮点型	0x2X	X=2: float类型数据（4位） X=3: double类型数据（8位）
日期	0x33	后面接着8个字节的浮点数时间戳
二进制	0x4X	X表示这段数据的字节数，如果X=F，则取后面一个字节的记为Y，随后的2^Y个字节解析为整数Z，即为这段数据的字节数
字符串	0x5X	ASCII编码 X表示这段数据的字节数,如果X=F则后面作为整数对象继续解析所得数既为字节数
字符串	0x6X	UTF-16 X表示这段数据的字节数,如果X=F则后面作为整数对象继续解析所得数既为字节数记得双字节!
数组	0xAX	X表示其元素个数,如果X=F则后面作为整数对象继续解析所得数既为个数后面接着X个元素在偏移表的位置
字典	0xCX	当做数组处理
单字节	0xDX	X表示其元素个数,如果X=F则后面作为整数对象继续解析所得数既为个数后面接着X个key在偏移表的位置,X个value在偏移表的位置