获取某程酒店数据

qq_44902227

已于 2022-06-05 15:03:48 修改

阅读量1.7k

点赞数

分类专栏：笔记文章标签：爬虫 python

于 2022-06-05 13:43:54 首次发布

本文链接：https://blog.csdn.net/qq_44902227/article/details/125130451

版权

本文介绍了如何爬取某程酒店数据，重点在于解决动态加载的testab参数问题。通过分析JS代码，发现参数由混淆的jsvmp数组生成。为简化复杂性，选择直接进行自动化获取。文章提供了本地构造代码读取数据的方法，并讨论了静态分析的优势。最终实现了自动登录并获取3页酒店数据，每个条目可通过酒店ID进入详情页获取更多信息。

摘要由CSDN通过智能技术生成

本文仅用于学习，切勿用于商业用途，出现任何问题后果自负！！！

这个网站的难点在于testab参数
在这里插入图片描述
通过全局搜索testab

点击框选的那个js，在如图位置打算断点，可以发现，testab是e()函数得到，然后通过encodeURIComponent编码得到

然后往下拉动，成功断住，点进去，然后发现是经过高度混淆的，文末是一个大数组，是一个经过混淆和平坦流的jsvmp
在这里插入图片描述

由于此种难度极高，需要还原算法，本人能力有限，我们直接走自动化获取
URL：aHR0cHM6Ly9ob3R{liangge}lbHMuY3RyaXAuY29tLw==
目标URL：aHR0cHM6Ly9ob3Rlb{liangge}HMuY3RyaXAuY29tL2hvdGVscy9saXN0P2NvdW50cnlJZD0xJmNpdHk9MSZjaGVja2luPTIwMjIvMDYvMDUmY2hlY2tvdXQ9MjAyMi8wNi{liangge}8wNiZvcHRpb25JZD0xJm9wdGlvblR5cGU9Q2l0eSZkaXJlY3RTZWFyY2g9MCZkaXNwbGF5PSVFNSU4QyU5NyVFNCVCQSVBQyUyQyUyM{liangge}CVFNCVCOCVBRCVFNSU5QiVCRCZjcm49MSZhZHVsdD0xJmNoaWxkcmVuPTAmc2VhcmNoQm94QXJnPXQmdHJhdmVsUHVycG9zZT0wJmN0bV9yZWY9aXhfc2JfZGwmZG9tZXN0aWM9MSY

通过保存一页网页源码，本地本地构造代码书写好
在这里插入图片描述
读取本地数据：

def get_data(html):
    """--------------------------------获取数据----------------------------------"""
    element = etree.HTML(html)
    li_el = element.xpath('//*[@id="ibu_hotel_container"]/div/section/div[2]/ul/li')
    results =