python爬虫
Acher_zxj
寻找灵魂的key
展开
-
搭建一个基于flask和redis的代理池(proxy pool)
在进行网页爬虫的项目时,常常会因为爬取的频率过高而触发 反爬虫机制 ,这时候,面临两个选择:休息片刻。一般反爬虫机制不会进行永久的IP封禁,只是暂时限制访问而已,等待封禁时间结束再进行爬取即可。当然对于某些拥有黑名单机制的网站,如果封禁次数过多,封禁的时间也会随着这个次数而提高。更换IP。既然我的IP被封了,那么我换一个其他的IP不就行了。显然,第二种方法更优于第一种,并且更加符合gee...原创 2020-02-08 19:17:26 · 24188 阅读 · 3 评论 -
python高级爬虫笔记(4)
前言到这里,python爬虫部分的复习也就告一段落了,当然,除了scrapy,老实说,对于平常爬取几千条这种小打小闹的爬虫,并没有去深入研究scrapy的必要(当然,了解还是要了解一下的)。之前学习爬虫,因为需求的原因,只学习了网页爬虫。趁着寒假有空,再来看一看app爬虫是啥样的吧。mitmproxy官网github安装安装本体brew install mitmproxy...原创 2020-02-05 18:56:58 · 10969 阅读 · 3 评论 -
python高级爬虫笔记(3)
引入根据笔者以往的爬虫经验,大部分的爬虫是在静态网页上完成的,爬虫所要做的只不过是提交请求,然后分析返回的页面即可。当然,api本质上也可以作为静态页面来处理。这意味着只要掌握requests就可以完成60%-80%的爬虫任务。这是一个很惊人的占比,这里解释一下,静态页面可能听起来很low,但是有着以加载速度更快、易于维护为核心的一系列优势,尤其是引入了ajax之后,实现了动态加载,通过更加频...原创 2020-02-05 20:43:53 · 10094 阅读 · 0 评论 -
python高级爬虫笔记(2)
提高爬虫效率主要从三个方面开始复习。并发ipcookies并发必然引发的一个结果就是反爬虫机制,这种时候爬虫的效率不会因为并发而提高,反而会因为网站的防御机制拖累爬虫的速度。自然而然地就引出了2,代理爬虫。代理爬虫能够从多个ip发送请求,减小了单个ip的请求频率,自然触发反爬虫机制的概率也就小了很多。但是新的问题又出现了,对于需要 登录 的网站,需要提交cookies来模拟登录情况...原创 2020-02-05 18:54:19 · 9578 阅读 · 0 评论 -
python高级爬虫笔记(1)
写在前面selenium 虽然是新手友好型的爬虫工具,但是个人觉得绝对不是适合新手入门的爬虫。推荐在了解了 requests体系 的爬虫,有了爬虫的一些常识之后,再来看selenium。事实上,requests体系的爬虫已经足够满足现阶段大多数网站的爬虫需求关于SeleniumSelenium诞生于2014年,创造者是ThoughtWorks公司的测试工程师Jason Huggins。创...原创 2020-02-05 18:52:51 · 9574 阅读 · 0 评论