爬虫
SanfordZhu
从现在开始,就是最好的时间。
展开
-
scrapy分布式爬虫之xpath简介
1.xpath简介2.xpath术语3.xpath语法简介:1.xpath使用路径表达式在xml和html中进行导航2.xpath包含标准函数库3.xpath是一个w3c的标准xpath的节点关系:1.父节点2.子节点3.同胞节点4.先辈节点5.后代节点xpath语法: ...原创 2018-06-04 22:44:05 · 1172 阅读 · 0 评论 -
爬虫之正则表达式
正则表达式:^b表示以b开头的字符*表示前面的字符可以出现任意次,可以是0次.表示任意字符$表示以该字符结尾,如3$括号会提取字符串的子串+号表示前面的字符至少出现一次大括号里面的数字表示字符出现的次数,有三种模式,{2},{2,}和{2,5}分别表示出现2次,2次以上,2次到5次|表示或,A|B,优先匹配A[]用法:1.表示[]里面的字符满足任意一个都可以。2.中括号里面可以写一个区间,后面跟上...原创 2018-05-14 14:02:23 · 224 阅读 · 0 评论 -
解决Mac平台下 pillow模块的安装
搜索了很多资料,才解决了Mac下pillow的安装过程。因为在teminal中直接pip install pillow会报错,提示缺少zlib。我们首先安装zlib。直接brew install zlib,然后再使用brew install libtiff libjpeg webp little-cms2即可安装成功。...原创 2018-05-14 21:19:22 · 1591 阅读 · 0 评论 -
爬虫与反爬虫
基本概念说明 爬虫:自动获取网站数据的程序,关键是批量获取。 反爬虫:使用技术手段防止爬虫程序的方法。 误伤:反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用。 比如:系统检测到有一个IP频繁的访问一个网站,那么可以直接禁止该IP访问。一般网站是不会采取这种方式的,为什么呢?一个学校或者一个网吧,它对外的IP只有一个或者几个,所有学校里面都是内部的局域网,某个学生写了一个爬...原创 2018-06-12 15:20:07 · 1657 阅读 · 2 评论 -
Python--Scrapy框架介绍
Scrapy框架概述 图表展现了Scrapy的架构,包括组件及在系统中发生的数据流的概览(绿色箭头所示)。 下面对每个组件都做了简单介绍,并给出了详细内容的链接。数据流如下所描述。 Scrapy Engine 引擎负责与其他模块进行通信,控制数据流在系统所有组件上的流动。 调度器(Scheduler) 用来接收引擎发送过来的request,并压入队列中,并在引擎再次请求的时...原创 2018-07-24 15:48:28 · 1242 阅读 · 0 评论 -
cookie和session的区别与联系
参见:https://blog.csdn.net/duan1078774504/article/details/51912868 首先我们需要了解session和cookie机制 Cookie是浏览器支持的存储方式,类似于python中的dict,拥有Key和Value http协议:无状态的协议,第一次请求和第二次请求之间没有联系。 如下图: 一般情况下这种协议是没问题的,比...原创 2018-08-14 20:55:33 · 6638 阅读 · 0 评论