本文仅用于学习,切勿用于商业用途,出现任何问题后果自负!!!
这个网站的难点在于testab参数
通过全局搜索testab
点击框选的那个js,在如图位置打算断点,可以发现,testab是e()函数得到,然后通过encodeURIComponent编码得到
然后往下拉动,成功断住,点进去,然后发现是经过高度混淆的,文末是一个大数组,是一个经过混淆和平坦流的jsvmp
由于此种难度极高,需要还原算法,本人能力有限,我们直接走自动化获取
URL:aHR0cHM6Ly9ob3R{liangge}lbHMuY3RyaXAuY29tLw==
目标URL:aHR0cHM6Ly9ob3Rlb{liangge}HMuY3RyaXAuY29tL2hvdGVscy9saXN0P2NvdW50cnlJZD0xJmNpdHk9MSZjaGVja2luPTIwMjIvMDYvMDUmY2hlY2tvdXQ9MjAyMi8wNi{liangge}8wNiZvcHRpb25JZD0xJm9wdGlvblR5cGU9Q2l0eSZkaXJlY3RTZWFyY2g9MCZkaXNwbGF5PSVFNSU4QyU5NyVFNCVCQSVBQyUyQyUyM{liangge}CVFNCVCOCVBRCVFNSU5QiVCRCZjcm49MSZhZHVsdD0xJmNoaWxkcmVuPTAmc2VhcmNoQm94QXJnPXQmdHJhdmVsUHVycG9zZT0wJmN0bV9yZWY9aXhfc2JfZGwmZG9tZXN0aWM9MSY
通过保存一页网页源码,本地本地构造代码书写好
读取本地数据:
def get_data(html):
"""--------------------------------获取数据----------------------------------"""
element = etree.HTML(html)
li_el = element.xpath('//*[@id="ibu_hotel_container"]/div/section/div[2]/ul/li')
results =