反爬虫
文章平均质量分 82
Fourierrr_
这个作者很懒,什么都没留下…
展开
-
Python反爬之破解动态页面(二)
前言上次我们讲到了破解一个简单的动态页面,post的元素是可以直接在源码里边找到的,然而大多数的时候,想服务器post的数据是需要经过复杂的加密逻辑生成的。这次我们就来分析一个经过加密的算法生成数据的页面。正文这次选取的目标是小说网站书旗,不过被阿里收购后,已经叫阿里文学了。我们到书库里边用文字的形式查看一下书籍列表,这就是我们今天的分析对象了,如何获取这个列表的信息。首先右键查看一下页面源码,果...原创 2018-04-17 11:27:33 · 709 阅读 · 1 评论 -
python反爬之破解动态页面(三)
前言 在前边两节我们分析了两个动态页面,过程还算简单。今天,我们来看一个复杂的例子。本来博主自己找到了一个例子准备分析的。不过,在分析时偶然搜到一篇分析动态页面的文章,过程详细清晰,且过程一波三折。博主抱着学习与分享的心态转载再创造这片文章,不过经过博主自己的实践,整个过程有一些小问题,在后边也会指出,原文参考自崔老师崔庆才的博客。正文疑难杂症 中国空气质量在线监测分析...原创 2018-04-22 15:23:10 · 1030 阅读 · 1 评论 -
Python反爬之破解动态页面(一)
前言可能很多同学看到关于动态页面的反爬(比如基于Ajax的网页)第一反应就是selenium+headless browser,这个方法好是好,然而是基于真实的浏览器,虽然没有界面,但是也占用很多内存。小型的测试用selenium的确不错,但是一旦业务量大起来了,需求复杂了,甚至需要分布式爬虫操作时,这个方法对于内存的开销实在受不了。那么有不用selenium的方法吗?当然有,今天就教大家硬刚基于...原创 2018-04-13 16:29:04 · 2040 阅读 · 0 评论