豆瓣读书搜索页的window.__DATA__的解密

上次发了破解知乎模拟登陆的最新版之后,很多人看了都说好,唯独没人给我点赞,以后还是麻烦大家,如果看到对你有用的文章,可以点点赞,支持下作者哈。

还有,知乎模拟登陆的代码已给出,github地址为:https://github.com/SergioJune/Spider-Crack-JS

希望各位大佬给点个star哈,以后会持续更新,将我的每个破解的网站源码都放上去,如果你也有什么解不开的网站,欢迎去提issue,我会尽我能力去破解,后分享给大家。

这次给大家分享的是豆瓣的读书搜索页

https://book.douban.com/subject_search?search_text=网络是怎样连接的&cat=1001

image

以前还以为豆瓣只是给新手爬虫练手的,直到我发现了这个页面,才发现是我错了,原来豆瓣也有加密的,有可能是为了防止新手乱爬吧,一看到这个就觉得爬虫越来越不好做了,随便一个页面都有 js 加密。

而且我觉得比上次的知乎的还难点,但是可能就只有搜索页是加密的,其他的直接找全部图书的都是直接放在html源码的。

废话不多说,生死看淡,不服就干!!!开始分析。

1. 寻找搜索内容

这个图书数据是直接加密的,隐藏在了html页面,如果你需要找的话,估计还得找很长时间,我是从一位大佬告诉我的,就在下面这个页面的 window.DATA 里面

image

不过如果需要自己找的话,还是可以的,需要点时间,自己细心点找,对于这个有经验了,以后遇到那些找不到数据的都可以尝试在本页面的html里面找。

2. 找解密位置

直接搜 window.DATA 即可

image

上面的就是html内容,所以是下面一个,或者你不信的话可以自己尝试下。

image

打断点,一看,果不其然,数据都出来了

image

接着就是自己慢慢调试了,点击下一步自己慢慢调试,看看用到的方法

image

走了几步会很容易发现这个,这个就可以说是上面那个方法的解密步骤了

接下来就是自己看这些 JS 的内容了,不算难,如果你厉害的话,能看出他加密使用的方法的话,你可以直接使用 Python 语言的相关加密方法,如果看不懂,你就需要自己扣出相关的 JS 了,

如果你初学 JS 的话,学过了 JS 原型的属性,那么非常推荐你解一下,因为这里的 JS 分布在两个文件内,不像上次知乎那样直接一段函数就解决了那么简单,并且扣出来了还需要自己改下函数之间或者对象之间的原型,总之很复杂,这个只能意会不能言传,篇幅有限,也不可能全部一个一个扣出来并和你说怎么改。

还是得自己实践一次才能感受到,我最后花了几天时间,扣出了1500+行代码

image

3. 用Python运行

这里扣出了 JS 使用 python 的 execjs 执行,会出现一个问题

UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 41: illegal multibyte sequence

image

这里是因为里面使用了一个 TextIOWrapper 对象,里面没有指定编码类型,使用了默认的 cp936 也就是 gbk 编码,使读取字符出错,我们可以在这个类上面初始化改下编码类型为 utf-8 即可运行

image

再次运行,即可成功。

image

4. 写在最后

这个豆瓣解密可以说不难,也可以说有点难,因为需要扣很多 JS ,如果你能看懂他相关的解密方法就不需要扣,就会很容易了。如果逆向深入研究逆行 JS 的话,还是建议你自己动手撸一遍,

最后,想要源码地址为 https://github.com/SergioJune/Spider-Crack-JS/tree/master/douban,对你有用的话请给个star,谢谢。

如果文章对你有用的话就点个赞吧!

本文仅用于交流学习,请勿用于非法用途,后果自负!

image

pip._vendor.urllib3.exceptions.ReadTimeoutError是一个在使用pip安装第三方库时可能遇到的错误。这个错误通常是由于连接超时导致的。在解决这个问题时,有几个可能的解决方案可以尝试。 首先,可以尝试使用镜像来安装库。镜像可以提供更快的下载速度,减少连接超时的机会。例如,可以使用豆瓣镜像来安装库,命令为"pip install [库名称] -i https://pypi.douban.com/simple"。 另外,还可以尝试更新pip和urllib3库,以确保使用的是最新版本。可以使用以下命令来更新这两个库: "pip install --upgrade pip urllib3"。 如果以上方法都没有解决问题,还可以尝试重新连接到网络,或者等待一段时间后再次尝试安装库。有时候连接超时问题可能是暂时的,重新尝试可能会解决问题。 总结起来,解决pip._vendor.urllib3.exceptions.ReadTimeoutError错误的方法包括使用镜像安装库,更新pip和urllib3库,重新连接网络或等待一段时间后再次尝试安装。希望这些解决方案能够帮助您解决问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [pip._vendor.urllib3.exceptions.ReadTimeoutError: 解决方案](https://blog.csdn.net/code_welike/article/details/130873978)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [python使用pip安装模块出现ReadTimeoutError: HTTPSConnectionPool的解决方法](https://download.csdn.net/download/weixin_38732277/14868215)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值