爬虫
文章平均质量分 82
Fourierrr_
这个作者很懒,什么都没留下…
展开
-
scrapy实战之与豆瓣反爬抗争
前言scrapy是优秀的Python爬虫框架,最近在使用scrapy爬取豆瓣音乐信息时,着实被其反爬机制搞了一下。虽然豆瓣提供了各种API可以供我们提取信息,但是我就是要用爬虫爬你练手。正文常见的反爬机制有如下几种:1.请求头检查,比如cookies,user-agent,refer,甚至Accept-Language等等,这也是最基本的反爬机制。2.访问频次检查,如果一个ip在短时间内访问次服务...原创 2018-04-07 15:21:51 · 7609 阅读 · 1 评论 -
详细分析python3爬取max+新闻数据(二)
正文上一篇文章我们已经分析了如何获取新闻的url页面,以及url页面的参数设置。现在就来具体编写代码实现爬取数据存入数据库。首先看看我们想要的,用Chrome打开新闻list的url,F12进入开发者模式,在network中的preview可以查看json信息。我们可以获取,类型content_type,时间date,点击click,文章链接newsurl,文章编号newsid,标题title,来...原创 2018-04-02 18:14:50 · 936 阅读 · 0 评论 -
Python反爬之破解动态页面(二)
前言上次我们讲到了破解一个简单的动态页面,post的元素是可以直接在源码里边找到的,然而大多数的时候,想服务器post的数据是需要经过复杂的加密逻辑生成的。这次我们就来分析一个经过加密的算法生成数据的页面。正文这次选取的目标是小说网站书旗,不过被阿里收购后,已经叫阿里文学了。我们到书库里边用文字的形式查看一下书籍列表,这就是我们今天的分析对象了,如何获取这个列表的信息。首先右键查看一下页面源码,果...原创 2018-04-17 11:27:33 · 736 阅读 · 1 评论 -
python反爬之破解动态页面(三)
前言 在前边两节我们分析了两个动态页面,过程还算简单。今天,我们来看一个复杂的例子。本来博主自己找到了一个例子准备分析的。不过,在分析时偶然搜到一篇分析动态页面的文章,过程详细清晰,且过程一波三折。博主抱着学习与分享的心态转载再创造这片文章,不过经过博主自己的实践,整个过程有一些小问题,在后边也会指出,原文参考自崔老师崔庆才的博客。 正文 疑难杂症 中国空气质量在线监测分析...原创 2018-04-22 15:23:10 · 1065 阅读 · 1 评论 -
Python反爬之破解动态页面(一)
前言可能很多同学看到关于动态页面的反爬(比如基于Ajax的网页)第一反应就是selenium+headless browser,这个方法好是好,然而是基于真实的浏览器,虽然没有界面,但是也占用很多内存。小型的测试用selenium的确不错,但是一旦业务量大起来了,需求复杂了,甚至需要分布式爬虫操作时,这个方法对于内存的开销实在受不了。那么有不用selenium的方法吗?当然有,今天就教大家硬刚基于...原创 2018-04-13 16:29:04 · 2070 阅读 · 0 评论