爬虫
无敌..
脚踏实地
展开
-
常见的反爬虫和应对方法?
1).通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。...原创 2018-12-09 09:53:47 · 434 阅读 · 0 评论 -
项目爬虫架构
1、基础爬虫的架构以及运行流程首先,给大家来讲讲基础爬虫的架构到底是啥样子的?从图上可以看到,整个基础爬虫架构分为5大类:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。下面给大家依次来介绍一下这5个大类的功能: 爬虫调度器,主要是配合调用其他四个模块,所谓调度就是取调用其他的模板 URL管理器,就是负责管理URL链接的,URL链接分为已经爬...转载 2019-04-10 18:55:52 · 823 阅读 · 1 评论 -
分布式爬虫
分布式进程就是将进程分布到多台机器上去,充分利用每一台机器来完成我们的爬虫任务。分布式进程需要用到multiprocessing模板,multiprocessing模板不但支持多进程,它的managers子模块还支持把多进程分布到多台机器上。 我们可以写一个服务进程作为调度者,然后将我们的爬虫任务分布给其他的多个进程当中去,我们依靠网络通信来管理这些进程。2.模拟一个分布...转载 2019-04-10 18:41:42 · 126 阅读 · 0 评论 -
三种scrapy模拟登陆方式
注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态COOKIES_ENABLED = True 或 # COOKIES_ENABLED = False策略一:直接POST数据(比如需要登陆的账户信息)只要是需要提供post数据的,就可以用这种方法。下面示例里post的数据是账户密码: # -*...原创 2019-03-18 18:43:39 · 293 阅读 · 0 评论 -
爬虫教程
1.新建项目:scrapy startproject xxx项目名,例如:scrapy startproject new_project2、 创建爬虫文件name:为文件的名字,在spiders文件下运行 :scrapy genspider -t crawl name'xxxx.com' 3、运行爬虫文件scrapy crawl name ...原创 2019-03-16 12:46:05 · 338 阅读 · 0 评论 -
xapth
打开和关闭xpathhelper的快捷键都是:ctrl +shift +x原创 2019-03-11 19:44:13 · 276 阅读 · 0 评论 -
scrapy和scrapy-redis有什么区别?为什么选择redis数据库?
1) scrapy是一个Python爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。而scrapy-redis一套基于redis数据库、运行在scrapy框架之上的组件,可以让scrapy支持分布式策略,Slaver端共享Master端redis数据库里的item队列、请求队列和请求指纹集合。2) 为什么选择redis数据库,因为redis支持主从同步,而且数据都是缓存在内存中的,所...转载 2018-12-09 09:57:49 · 1298 阅读 · 0 评论 -
写爬虫是用多进程好?还是多线程好? 为什么?
IO密集型代码(文件处理、网络爬虫等),多线程能够有效提升效率(单线程下有IO操作会进行IO等待,造成不必要的时间浪费,而开启多线程能在线程A等待时,自动切换到线程B,可以不浪费CPU的资源,从而能提升程序执行效率)。在实际的数据采集过程中,既考虑网速和响应的问题,也需要考虑自身机器的硬件情况,来设置多进程或多线程...转载 2018-12-09 09:57:20 · 5688 阅读 · 0 评论 -
分布式爬虫主要解决什么问题?
1)ip2)带宽3)cpu4)io原创 2018-12-09 09:57:04 · 2160 阅读 · 0 评论 -
绝无仅有,史上最全的python爬虫教程!
import urllibimport urllib.requesturllib.request.urlopen("http://www.baidu.com")2.re3.requests4.selenimu这个库是配合一些驱动去爬取动态渲染网页的库(1)chromedriver我们使用的时候需要先下载一个chromedriver.exe,下载好了以后放在 chr...转载 2019-05-16 16:10:44 · 2404 阅读 · 0 评论