今天在工作中,碰到了第一次碰见的反爬虫机制,感觉很有意思,在这里记录一下,希望对大家有帮助。
** 今天用到的库**:
requests [请求]
lzstring [解压数据]
pyexecjs [执行JS]
简单粗暴,直接上网站部分源代码,因为这个网站应该不太希望别人来爬,所以就不上网站了。为什么这么说,因为刚开始请求的时候,老是给我返回GO TO HELL ,哈哈。
这个网站点击鼠标右键审查元素,查看网页源代码是无法用的,但是这个好像只能防住小白啊,简单的按F12审查元素,CTRL+u 直接查看源代码(谷歌浏览器)。
这次的目的主要是为了获取下面的链接(重度打码)
xxxxxxxxxxx/xxxxx-003-a5f7xxxxxx?cid=xxxxx&xxx=siOE_q4XxBtwdoXqD0xxxx
其中,红色加粗的就是我们要找的变量了。
一、观察与抓包
首先,我观察到了网页源代码中的一部分js代码:
type=”text/javascript”>window[“\x65\x76