一、网络爬虫
1. 什么是网络爬虫:
- 通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。
- 专业介绍:网络爬虫(又称为网页蜘蛛,网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 程序或者 脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
2. 通用爬虫和聚焦爬虫:
- 通用爬虫:通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
- 聚焦爬虫:是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。
3. 为什么用Python写爬虫程序:
- PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很好,并发处理能力弱。爬虫是工具性程序,对速度和效率要求比较高。
- Java:生态圈很完善,是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。重构成本比较高,任何修改会导致代码大量改动。爬虫经常要修改采集代码。
- C/C++:运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。
- Python:语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。还有Scrapy和Scrapy-redis框架让我们开发爬虫变得异常简单。
4. 准备工具:
- Python3.6开发环境。
- Pycharm、vscode
二、http协议和Chrome抓包工具
1.什么是http和https协议:
HTTP协议:全称是HyperText Transfer Protocol
,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80
端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443
端口。
2. 在浏览器中发送一个http请求的过程:
- 当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。
- 当我们在浏览器输入URL http://www.baidu.com 的时候,浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。
- 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。
- 当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。
3. url详解:
URL
是Uniform Resource Locator
的简写,统一资源定位符。 一个URL
由以下几部分组成:
- scheme:代表的是访问的协议,一般为
http
或者https
以及ftp
等。 - host:主机名,域名,比如
www.baidu.com
。 - port:端口号。当你访问一个网站的时候,浏览器默认使用80端口。
- path:查找路径。比如:
www.jianshu.com/trending/now
,后面的trending/now
就是path
。 - query-string:查询字符串,比如:
www.baidu.com/s?wd=python
,后面的wd=python
就是查询字符串。 - anchor:锚点,后台一般不用管,前端用来做页面定位的。
在浏览器中请求一个url
,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。
4. 常用的请求方法:
在Http
协议中,定义了八种请求方法。这里介绍两种常用的请求方法,分别是get
请求和post
请求。
get
请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用get
请求。post
请求:向服务器发送数据(登录)、上传文件等,会对服务器资源产生影响的时候会使用post
请求。 以上是在网站开发中常用的两种方法。并且一般情况下都会遵循使用的原则。但是有的网站和服务器为了做反爬虫机制,也经常会不按常理出牌,有可能一个应该使用get
方法的请求就一定要改成post
请求,这个要视情况而定。
5. 请求头常见参数:
在http
协议中,向服务器发送一个请求,数据分为三部分,第一个是把数据放在url中,第二个是把数据放在body
中(在post
请求中),第三个就是把数据放在head
中。这里介绍在网络爬虫中经常会用到的一些请求头参数:
User-Agent
:浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候,服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求,那么我们的User-Agent
就是Python
,这对于那些有反爬虫机制的网站来说,可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值,来伪装我们的爬虫。Referer
:表明当前这个请求是从哪个url
过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的,那么就不做相关的响应。Cookie
:http
协议是无状态的。也就是同一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用cookie
来做标识。一般如果想要做登录后才能访问的网站,那么就需要发送cookie
信息了。
6. 常见响应状态码:
200
:请求正常,服务器正常的返回数据。301
:永久重定向。比如在访问www.jingdong.com
的时候会重定向到www.jd.com
。302
:临时重定向。比如在访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面。400
:请求的url
在服务器上找不到。换句话说就是请求url
错误。403
:服务器拒绝访问,权限不够。500
:服务器内部错误。可能是服务器出现bug
了。
7. Chrome抓包工具:
Chrome
浏览器是一个非常亲近开发者的浏览器。可以方便的查看网络请求以及发送的参数。对着网页右键->检查
。然后就可以打开开发者选项。以下用图片来说明。
三、urllib库
urllib
库是Python
中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。
1. urlopen函数:
在Python3
的urllib
库中,所有和网络请求相关的方法,都被集到urllib.request
模块下面了,以先来看下urlopen
函数基本的使用:
实际上,使用浏览器访问百度,右键查看源代码。你会发现,跟我们刚才打印出来的数据是一模一样的。也就是说,上面的三行代码就已经帮我们把百度的首页的全部代码爬下来了。一个基本的url请求对应的python代码真的非常简单。
以下对urlopen
函数的进行详细讲解:
url
:请求的url。data
:请求的data
,如果设置了这个值,那么将变成post
请求。- 返回值:返回值是一个
http.client.HTTPResponse
对象,这个对象是一个类文件句柄对象。有read(size)
、readline
、readlines
以及getcode
等方法。
2. urlretrieve函数:
这个函数可以方便的将网页上的一个文件保存到本地。以下代码可以非常方便的将百度的首页下载到本地:
3. urlencode函数:
用浏览器发送请求的时候,如果url中包含了中文或者其他特殊字符,那么浏览器会自动的给我们进行编码。而如果使用代码发送请求,那么就必须手动的进行编码,这时候就应该使用urlencode
函数来实现。urlencode
可以把字典数据转换为URL
编码的数据。示例代码如下:
4. parse_qs函数:
可以将经过编码后的url参数进行解码。示例代码如下:
5. urlparse和urlsplit:
有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse
或者是urlsplit
来进行分割。示例代码如下:
urlparse
和urlsplit
基本上是一模一样的。唯一不一样的地方是,urlparse
里面多了一个params
属性,而urlsplit
没有这个params
属性。比如有一个url
为:url = 'http://www.baidu.com/s;hello?wd=python&username=abc#1'
,
那么urlparse
可以获取到hello
,而urlsplit
不可以获取到。url
中的params
也用得比较少。
6. request.Request类:
如果想要在请求的时候增加一些请求头,那么就必须使用request.Request
类来实现。比如要增加一个User-Agent
,示例代码如下:
7. 内涵段子爬虫实战作业:
- url链接: http://neihanshequ.com/bar/1/
- 要求:能爬取一页的数据就可以了。
8. ProxyHandler处理器(代理设置)
很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。
所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。
urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:
常用的代理有:
- 西刺免费代理IP: http://www.xicidaili.com/
- 快代理: http://www.kuaidaili.com/
- 代理云: http://www.dailiyun.com/
9. 什么是cookie:
在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie
的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie
数据自动的携带给服务器,服务器通过浏览器携带的数据就能判断当前用户是哪个了。cookie
存储的数据量有限,不同的浏览器有不同的存储大小,但一般不超过4KB。因此使用cookie
只能存储一些小量的数据。
cookie的格式:
参数意义:
- NAME:cookie的名字。
- VALUE:cookie的值。
- Expires:cookie的过期时间。
- Path:cookie作用的路径。
- Domain:cookie作用的域名。
- SECURE:是否只在https协议下起作用。
10. 案例
Cookie 是指网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。
这里以人人网为例。人人网中,要访问某个人的主页,必须先登录才能访问,登录说白了就是要有cookie信息。那么如果我们想要用代码的方式访问,就必须要有正确的cookie信息才能访问。解决方案有两种,第一种是使用浏览器访问,然后将cookie信息复制下来,放到headers中。示例代码如下:
但是每次在访问需要cookie的页面都要从浏览器中复制cookie比较麻烦。在Python处理Cookie,一般是通过http.cookiejar
模块和urllib模块的HTTPCookieProcessor
处理器类一起使用。http.cookiejar
模块主要作用是提供用于存储cookie的对象。而HTTPCookieProcessor
处理器主要作用是处理这些cookie对象,并构建handler对象。
http.cookiejar模块:
该模块主要的类有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。这四个类的作用分别如下:
- CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。
- FileCookieJar (filename,delayload=None,policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为True时支持延迟访问访问文件,即只有在需要时才读取文件或在文件中存储数据。
- MozillaCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。
- LWPCookieJar (filename,delayload=None,policy=None):从FileCookieJar派生而来,创建与libwww-perl标准的 Set-Cookie3 文件格式兼容的FileCookieJar实例。
登录人人网:
利用http.cookiejar
和request.HTTPCookieProcessor
登录人人网。相关示例代码如下:
保存cookie到本地:
保存cookie
到本地,可以使用cookiejar
的save
方法,并且需要指定一个文件名:
从本地加载cookie:
从本地加载cookie
,需要使用cookiejar
的load
方法,并且也需要指定方法:
四、requests库
虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。
1. 安装和文档地址:
利用pip
可以非常方便的安装:
中文文档: http://docs.python-requests.org/zh_CN/latest/index.htmlgithub地址: https://github.com/requests/requests
2. 发送GET请求:
- 最简单的发送
get
请求就是通过requests.get
来调用:
- 添加headers和查询参数:
如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递,可以利用 params 参数。相关示例代码如下:
3. 发送POST请求:
- 最基本的POST请求可以使用
post
方法:
- 传入data数据:
这时候就不要再使用urlencode
进行编码了,直接传入一个字典进去就可以了。比如请求拉勾网的数据的代码:
4. 使用代理:
使用requests
添加代理也非常简单,只要在请求的方法中(比如get
或者post
)传递proxies
参数就可以了。示例代码如下:
5. cookie:
如果在一个响应中包含了cookie
,那么可以利用cookies
属性拿到这个返回的cookie
值:
6. session:
之前使用urllib
库,是可以使用opener
发送多个请求,多个请求之间是可以共享cookie
的。那么如果使用requests
,也要达到共享cookie
的目的,那么可以使用requests
库给我们提供的session
对象。注意,这里的session
不是web开发中的那个session,这个地方只是一个会话的对象而已。还是以登录人人网为例,使用requests
来实现。示例代码如下:
7. 处理不信任的SSL证书:
对于那些已经被信任的SSL整数的网站,比如https://www.baidu.com/
,那么使用requests
直接就可以正常的返回响应。示例代码如下:
五、XPath语法
1. 什么是XPath?
xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。
2. XPath开发工具
- Chrome插件XPath Helper。
- Firefox插件Try XPath。
3. XPath语法
选取节点:
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
表达式 | 描述 | 示例 | 结果 |
nodename | 选取此节点的所有子节点 | bookstore | 选取bookstore下所有的子节点 |
/ | 如果是在最前面,代表从根节点选取。否则选择某节点下的某个节点 | /bookstore | 选取根元素下所有的bookstore节点 |
// | 从全局节点中选择节点,随便在哪个位置 | //book | 从全局节点中找到所有的book节点 |
@ | 选取某个节点的属性 | //book[@price] | 选择所有拥有price属性的book节点 |
. | 当前节点 | ./a | 选取当前节点下的a标签 |
谓语:
谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
路径表达式 | 描述 |
/bookstore/book[1] | 选取bookstore下的第一个子元素 |
/bookstore/book[last()] | 选取bookstore下的倒数第二个book元素。 |
bookstore/book[position()<3] | 选取bookstore下前面两个子元素。 |
//book[@price] | 选取拥有price属性的book元素 |
//book[@price=10] | 选取所有属性price等于10的book元素 |
通配符
*表示通配符。
通配符 | 描述 | 示例 | 结果 |
* | 匹配任意节点 | /bookstore/* | 选取bookstore下的所有子元素。 |
@* | 匹配节点中的任何属性 | //book[@*] | 选取所有带有属性的book元素。 |
选取多个路径:
通过在路径表达式中使用“|”运算符,可以选取若干个路径。
示例如下:
六、lxml库
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。
lxml python 官方文档: http://lxml.de/index.html
需要安装C语言库,可使用 pip 安装:pip install lxml
1. 基本使用:
我们可以利用他来解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范,他会自动的进行补全。示例代码如下:
输入结果如下:
可以看到。lxml会自动修改HTML代码。例子中不仅补全了li标签,还添加了body,html标签。
2. 从文件中读取html代码:
除了直接使用字符串进行解析,lxml还支持从文件中读取内容。我们新建一个hello.html文件:
然后利用etree.parse()
方法来读取文件。示例代码如下:
输入结果和之前是相同的。
3. 在lxml中使用XPath语法:
- 获取所有li标签:
- 获取所有li元素下的所有class属性的值:
- 获取li标签下href为
www.baidu.com
的a标签:
- 获取li标签下所有span标签:
- 获取li标签下的a标签里的所有class:
- 获取最后一个li的a的href属性对应的值:
- 获取倒数第二个li元素的内容:
- 获取倒数第二个li元素的内容的第二种方式:
4. 使用requests和xpath爬取电影天堂
示例代码如下:
七、BeautifulSoup4库
和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
Beautiful Soup 3 目前已经停止开发,推荐现在的项目使用Beautiful Soup 4。
1. 安装和文档:
- 安装:
pip install bs4
。 - 中文文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
2.几大解析工具对比:
解析工具 | 解析速度 | 使用难度 |
BeautifulSoup | 最慢 | 最简单 |
lxml | 快 | 简单 |
正则 | 最快 | 最难 |
3. 简单使用:
4. 常用的对象:
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag
- NavigatableString
- BeautifulSoup
- Comment
1. Tag:
Tag 通俗点讲就是 HTML 中的一个个标签。示例代码如下:
我们可以利用 soup 加标签名轻松地获取这些标签的内容,这些对象的类型是bs4.element.Tag。但是注意,它查找的是在所有内容中的第一个符合要求的标签。如果要查询所有的标签,后面会进行介绍。
对于Tag,它有两个重要的属性,分别是name和attrs。示例代码如下:
2. NavigableString:
如果拿到标签后,还想获取标签中的内容。那么可以通过tag.string
获取标签中的文字。示例代码如下:
3. BeautifulSoup:
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.
因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name
4. Comment:
Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分:
Comment 对象是一个特殊类型的 NavigableString 对象:
5.遍历文档树:
1. contents和children:
2. strings 和 stripped_strings
如果tag中包含多个字符串 [2] ,可以使用 .strings 来循环获取:
输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容:
6. 搜索文档树:
1. find和find_all方法:
搜索文档树,一般用得比较多的就是两个方法,一个是find
,一个是find_all
。find
方法是找到第一个满足条件的标签后就立即返回,只返回一个元素。find_all
方法是把所有满足条件的标签都选到,然后返回回去。使用这两个方法,最常用的用法是出入name
以及attr
参数找出符合要求的标签。
或者是直接传入属性的的名字作为关键字参数:
2. select方法:
使用以上方法可以方便的找出元素。但有时候使用css
选择器的方式可以更加的方便。使用css
选择器的语法,应该使用select
方法。以下列出几种常用的css
选择器方法:
(1)通过标签名查找:
(2)通过类名查找:
通过类名,则应该在类的前面加一个.
。比如要查找class=sister
的标签。示例代码如下:
(3)通过id查找:
通过id查找,应该在id的名字前面加一个#号。示例代码如下:
(4)组合查找:
组合查找即和写 class 文件时,标签名与类名、id名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1的内容,二者需要用空格分开:
直接子标签查找,则使用 > 分隔:
(5)通过属性查找:
查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。示例代码如下:
(6)获取内容
以上的 select 方法返回的结果都是列表形式,可以遍历形式输出,然后用 get_text() 方法来获取它的内容。
八、正则表达式和re模块:
1. 什么是正则表达式:
通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。
标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin
2. 正则表达式常用匹配规则:
匹配某个字符串:
以上便可以在hello
中,匹配出he
。
点(.)匹配任意的字符:
但是点(.)不能匹配不到换行符。示例代码如下:
\d匹配任意的数字:
\D匹配任意的非数字:
而如果text是等于一个数字,那么就匹配不成功了。示例代码如下:
\s匹配的是空白字符(包括:\n,\t,\r和空格):
\w匹配的是a-z
和A-Z
以及数字和下划线:
而如果要匹配一个其他的字符,那么就匹配不到。示例代码如下:
\W匹配的是和\w相反的:
而如果你的text是一个下划线或者英文字符,那么就匹配不到了。示例代码如下:
[]组合的方式,只要满足中括号中的某一项都算匹配成功:
之前讲到的几种匹配规则,其实可以使用中括号的形式来进行替代:
- \d:[0-9]
- \D: 0-9
- \w:[0-9a-zA-Z_]
- \W:[^0-9a-zA-Z_]
匹配多个字符:
-
*
:可以匹配0或者任意多个字符。示例代码如下:
以上因为匹配的要求是\d
,那么就要求是数字,后面跟了一个星号,就可以匹配到0731这四个字符。
-
+
:可以匹配1个或者多个字符。最少一个。示例代码如下:
因为匹配的是\w
,那么就要求是英文字符,后面跟了一个加号,意味着最少要有一个满足\w
的字符才能够匹配到。如果text是一个空白字符或者是一个不满足\w的字符,那么就会报错。示例代码如下:
-
?
:匹配的字符可以出现一次或者不出现(0或者1)。示例代码如下:
-
{m}
:匹配m个字符。示例代码如下:
-
{m,n}
:匹配m-n个字符。在这中间的字符都可以匹配到。示例代码如下:
如果text只有一个字符,那么也可以匹配出来。示例代码如下:
3.小案例:
- 验证手机号码:手机号码的规则是以
1
开头,第二位可以是34587
,后面那9位就可以随意了。示例代码如下:
而如果是个不满足条件的手机号码。那么就匹配不到了。示例代码如下:
- 验证邮箱:邮箱的规则是邮箱名称是用
数字、数字、下划线
组成的,然后是@
符号,后面就是域名了。示例代码如下:
- 验证URL:URL的规则是前面是
http
或者https
或者是ftp
然后再加上一个冒号,再加上一个斜杠,再后面就是可以出现任意非空白字符了。示例代码如下:
- 验证身份证:身份证的规则是,总共有18位,前面17位都是数字,后面一位可以是数字,也可以是小写的x,也可以是大写的X。示例代码如下:
^(脱字号):表示以...开始:
如果是在中括号中,那么代表的是取反操作.
$:表示以...结束:
|:匹配多个表达式或者字符串:
贪婪模式和非贪婪模式:
贪婪模式:正则表达式会匹配尽量多的字符。默认是贪婪模式。
非贪婪模式:正则表达式会尽量少的匹配字符。
示例代码如下:
可以改成非贪婪模式,那么就只会匹配到0。示例代码如下:
案例:匹配0-100
之间的数字:
而如果text=101
,那么就会抛出一个异常。示例代码如下:
转义字符和原生字符串:
在正则表达式中,有些字符是有特殊意义的字符。因此如果想要匹配这些字符,那么就必须使用反斜杠进行转义。比如$
代表的是以...结尾,如果想要匹配$
,那么就必须使用\$
。示例代码如下:
原生字符串:
在正则表达式中,\
是专门用来做转义的。在Python中\
也是用来做转义的。因此如果想要在普通的字符串中匹配出\
,那么要给出四个\
。示例代码如下:
因此要使用原生字符串就可以解决这个问题:
九、re模块中常用函数:
1. match:
从开始的位置进行匹配。如果开始的位置没有匹配到。就直接失败了。示例代码如下:
如果第一个字母不是h
,那么就会失败。示例代码如下:
如果想要匹配换行的数据,那么就要传入一个flag=re.DOTALL
,就可以匹配换行符了。示例代码如下:
2. search:
在字符串中找满足条件的字符。如果找到,就返回。说白了,就是只会找到第一个满足条件的。
3. 分组:
在正则表达式中,可以对过滤到的字符串进行分组。分组使用圆括号的方式。
group
:和group(0)
是等价的,返回的是整个满足条件的字符串。groups
:返回的是里面的子组。索引从1开始。group(1)
:返回的是第一个子组,可以传入多个。
示例代码如下:
4. findall:
找出所有满足条件的,返回的是一个列表。
5. sub:
用来替换字符串。将匹配到的字符串替换为其他字符串。
sub
函数的案例,获取拉勾网中的数据:
6. split:
使用正则表达式来分割字符串。
7. compile:
对于一些经常要用到的正则表达式,可以使用compile
进行编译,后期再使用的时候可以直接拿过来用,执行效率会更快。而且compile
还可以指定flag=re.VERBOSE
,在写正则表达式的时候可以做好注释。示例代码如下:
十、json文件处理:
1. 什么是json:
JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见: https://baike.baidu.com/item/JSON/2462549?fr=aladdin
2. JSON支持数据格式:
- 对象(字典)。使用花括号。
- 数组(列表)。使用方括号。
- 整形、浮点型、布尔类型还有null类型。
- 字符串类型(字符串必须要用双引号,不能用单引号)。
多个数据之间使用逗号分开。
注意:json本质上就是一个字符串。
3. 字典和列表转JSON:
因为json
在dump
的时候,只能存放ascii
的字符,因此会将中文进行转义,这时候我们可以使用ensure_ascii=False
关闭这个特性。
在Python
中。只有基本数据类型才能转换成JSON
格式的字符串。也即:int
、float
、str
、list
、dict
、tuple
。
4. 将json数据直接dump
到文件中:
json
模块中除了dumps
函数,还有一个dump
函数,这个函数可以传入一个文件指针,直接将字符串dump
到文件中。示例代码如下:
5. 将一个json字符串load成Python对象:
6. 直接从文件中读取json:
十一、csv文件处理
1. 读取csv文件:
这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获取数据的时候通过标题来获取。那么可以使用DictReader
。示例代码如下:
2. 写入数据到csv文件:
写入数据到csv文件,需要创建一个writer
对象,主要用到两个方法。一个是writerow
,这个是写入一行。一个是writerows
,这个是写入多行。示例代码如下:
也可以使用字典的方式把数据写入进去。这时候就需要使用DictWriter
了。示例代码如下:
十二、MySQL数据库操作
1. 安装mysql:
- 在官网: https://dev.mysql.com/downloads/windows/installer/5.7.html
- 如果提示没有
.NET Framework
框架。那么就在提示框中找到下载链接,下载一个就可以了。 - 如果提示没有
Microsoft Virtual C++ x64(x86)
,那么百度或者谷歌这个软件安装即可。 - 如果没有找到。那么私聊我。
2. navicat:
navicat是一个操作mysql数据库非常方便的软件。使用他操作数据库,就跟使用excel操作数据是一样的。
4. 安装驱动程序:
Python要想操作MySQL。必须要有一个中间件,或者叫做驱动程序。驱动程序有很多。比如有mysqldb
、mysqlclient
、pymysql
等。在这里,我们选择用pymysql
。安装方式也是非常简单,通过命令pip install pymysql
即可安装。
5. 数据库连接:
数据库连接之前。首先先确认以下工作完成,这里我们以一个pymysql_test
数据库.以下将介绍连接mysql
的示例代码:
6. 插入数据:
如果在数据还不能保证的情况下,可以使用以下方式来插入数据:
7. 查找数据:
使用pymysql
查询数据。可以使用fetch*
方法。
fetchone()
:这个方法每次之获取一条数据。fetchall()
:这个方法接收全部的返回结果。fetchmany(size)
:可以获取指定条数的数据。
示例代码如下:
或者是直接使用fetchall
,一次性可以把所有满足条件的数据都取出来:
或者是使用fetchmany
,指定获取多少条数据:
8. 删除数据:
9. 更新数据:
十三、多线程爬虫
有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。
1. 多线程介绍:
多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。
最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也可以有多节车厢。多线程的出现就是为了提高效率。同时它的出现也带来了一些问题。更多介绍请参考:https://baike.baidu.com/item/多线程/1190404?fr=aladdin
2.threading模块介绍:
threading
模块是python
中专门提供用来做多线程编程的模块。threading
模块中最常用的类是Thread
。以下看一个简单的多线程程序:
3.查看线程数:
使用threading.enumerate()
函数便可以看到当前线程的数量。
4.查看当前线程的名字:
使用threading.current_thread()
可以看到当前线程的信息。
5.继承自threading.Thread
类:
为了让线程代码更好的封装。可以使用threading
模块下的Thread
类,继承自这个类,然后实现run
方法,线程就会自动运行run
方法中的代码。示例代码如下:
6. 多线程共享全局变量的问题:
多线程都是在同一个进程中运行的。因此在进程中的全局变量所有线程都是可共享的。这就造成了一个问题,因为线程执行的顺序是无序的。有可能会造成数据错误。比如以下代码:
以上结果正常来讲应该是6,但是因为多线程运行的不确定性。因此最后的结果可能是随机的。
7. 锁机制:
为了解决以上使用共享全局变量的问题。threading
提供了一个Lock
类,这个类可以在某个线程访问某个变量的时候加锁,其他线程此时就不能进来,直到当前线程处理完后,把锁释放了,其他线程才能进来处理。示例代码如下:
- Lock版本生产者和消费者模式:
生产者和消费者模式是多线程开发中经常见到的一种模式。生产者的线程专门用来生产一些数据,然后存放到一个中间的变量中。消费者再从这个中间的变量中取出数据进行消费。但是因为要使用中间变量,中间变量经常是一些全局变量,因此需要使用锁来保证数据完整性。以下是使用threading.Lock
锁实现的“生产者与消费者模式”的一个例子:
- Condition版的生产者与消费者模式:
Lock
版本的生产者与消费者模式可以正常的运行。但是存在一个不足,在消费者中,总是通过while True
死循环并且上锁的方式去判断钱够不够。上锁是一个很耗费CPU资源的行为。因此这种方式不是最好的。还有一种更好的方式便是使用threading.Condition
来实现。threading.Condition
可以在没有数据的时候处于阻塞等待状态。一旦有合适的数据了,还可以使用notify
相关的函数来通知其他处于等待状态的线程。这样就可以不用做一些无用的上锁和解锁的操作。可以提高程序的性能。首先对threading.Condition
相关的函数做个介绍,threading.Condition
类似threading.Lock
,可以在修改全局数据的时候进行上锁,也可以在修改完毕后进行解锁。以下将一些常用的函数做个简单的介绍:
acquire
:上锁。release
:解锁。wait
:将当前线程处于等待状态,并且会释放锁。可以被其他线程使用notify
和notify_all
函数唤醒。被唤醒后会继续等待上锁,上锁后继续执行下面的代码。notify
:通知某个正在等待的线程,默认是第1个等待的线程。notify_all
:通知所有正在等待的线程。notify
和notify_all
不会释放锁。并且需要在release
之前调用。
Condition
版的生产者与消费者模式代码如下:
10. Queue线程安全队列:
在线程中,访问一些全局变量,加锁是一个经常的过程。如果你是想把一些数据存储到某个队列中,那么Python内置了一个线程安全的模块叫做queue
模块。Python中的queue模块中提供了同步的、线程安全的队列类,包括FIFO(先进先出)队列Queue,LIFO(后入先出)队列LifoQueue。这些队列都实现了锁原语(可以理解为原子操作,即要么不做,要么都做完),能够在多线程中直接使用。可以使用队列来实现线程间的同步。相关的函数如下:
- 初始化Queue(maxsize):创建一个先进先出的队列。
- qsize():返回队列的大小。
- empty():判断队列是否为空。
- full():判断队列是否满了。
- get():从队列中取最后一个数据。
- put():将一个数据放到队列中。
11. 使用生产者与消费者模式多线程下载表情包:
12. GIL全局解释器锁:
Python自带的解释器是CPython
。CPython
解释器的多线程实际上是一个假的多线程(在多核CPU中,只能利用一核,不能利用多核)。同一时刻只有一个线程在执行,为了保证同一时刻只有一个线程在执行,在CPython
解释器中有一个东西叫做GIL(Global Intepreter Lock)
,叫做全局解释器锁。这个解释器锁是有必要的。因为CPython
解释器的内存管理不是线程安全的。当然除了CPython
解释器,还有其他的解释器,有些解释器是没有GIL
锁的,见下面:
Jython
:用Java实现的Python解释器。不存在GIL锁。更多详情请见: https://zh.wikipedia.org/wiki/JythonIronPython
:用.net
实现的Python解释器。不存在GIL锁。更多详情请见: https://zh.wikipedia.org/wiki/IronPythonPyPy
:用Python
实现的Python解释器。存在GIL锁。更多详情请见: https://zh.wikipedia.org/wiki/PyPyGIL虽然是一个假的多线程。但是在处理一些IO操作(比如文件读写和网络请求)还是可以在很大程度上提高效率的。在IO操作上建议使用多线程提高效率。在一些CPU计算操作上不建议使用多线程,而建议使用多进程。
13. 多线程下载百思不得姐段子作业:
十四、动态网页数据抓取
1. 什么是AJAX:
AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是XML
语法。因此叫做AJAX
,其实现在数据交互基本上都是使用JSON
。使用AJAX加载的数据,即使使用了JS,将数据渲染到了浏览器中,在右键->查看网页源代码
还是不能看到通过ajax加载的数据,只能看到使用这个url加载的html代码。
2. 获取ajax数据的方式:
- 直接分析ajax调用的接口。然后通过代码请求这个接口。
- 使用Selenium+chromedriver模拟浏览器行为获取数据。
方式 | 优点 | 缺点 |
分析接口 | 直接可以请求到数据。不需要做一些解析工作。代码量少,性能高。 | 分析接口比较复杂,特别是一些通过js混淆的接口,要有一定的js功底。容易被发现是爬虫。 |
selenium | 直接模拟浏览器的行为。浏览器能请求到的,使用selenium也能请求到。爬虫更稳定。 | 代码量多。性能低。 |
3.Selenium+chromedriver获取动态数据:
Selenium
相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver
是一个驱动Chrome
浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:
- Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
- Firefox: https://github.com/mozilla/geckodriver/releases
- Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
- Safari: https://webkit.org/blog/6900/webdriver-support-in-safari-10/
4. 安装Selenium和chromedriver:
- 安装
:
有很多语言的版本,有java、ruby、python等。我们下载python版本的就可以了。
- 安装
chromedriver
:下载完成后,放到不需要权限的纯英文目录下就可以了。
5. 快速入门:
现在以一个简单的获取百度首页的例子来讲下Selenium
和chromedriver
如何快速入门:
6. selenium常用操作:
更多教程请参考: http://selenium-python.readthedocs.io/installation.html#introduction
关闭页面:
driver.close()
:关闭当前页面。driver.quit()
:退出整个浏览器。
定位元素:
:根据id来查找某个元素。等价于:
:根据类名查找元素。 等价于:
:根据name属性的值来查找元素。等价于:
:根据标签名来查找元素。等价于:
:根据xpath语法来获取元素。等价于:
-
find_element_by_css_selector
:根据css选择器选择元素。等价于:
要注意,find_element
是获取第一个满足条件的元素。find_elements
是获取所有满足条件的元素。
操作表单元素:
- 操作输入框:分为两步。第一步:找到这个元素。第二步:使用
send_keys(value)
,将数据填充进去。示例代码如下:
使用clear
方法可以清除输入框中的内容。示例代码如下:
- 操作checkbox:因为要选中
checkbox
标签,在网页中是通过鼠标点击的。因此想要选中checkbox
标签,那么先选中这个标签,然后执行click
事件。示例代码如下:
- 选择select:select元素不能直接点击。因为点击后还需要选中元素。这时候selenium就专门为select标签提供了一个类
selenium.webdriver.support.ui.Select
。将获取到的元素当成参数传到这个类中,创建这个对象。以后就可以使用这个对象进行选择了。示例代码如下:
- 操作按钮:操作按钮有很多种方式。比如单击、右击、双击等。这里讲一个最常用的。就是点击。直接调用
click
函数就可以了。示例代码如下:
行为链:
有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链类ActionChains
来完成。比如现在要将鼠标移动到某个元素上并执行点击事件。那么示例代码如下:
还有更多的鼠标相关的操作。
- click_and_hold(element):点击但不松开鼠标。
- context_click(element):右键点击。
- double_click(element):双击。 更多方法请参考: http://selenium-python.readthedocs.io/api.html
Cookie操作:
- 获取所有的
:
- 根据cookie的key获取value:
- 删除所有的cookie:
- 删除某个
:
页面等待:
现在的网页越来越多采用了 Ajax 技术,这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来,但是你的代码直接使用了这个WebElement,那么就会抛出NullPointer的异常。为了解决这个问题。所以 Selenium 提供了两种等待方式:一种是隐式等待、一种是显式等待。
- 隐式等待:调用
driver.implicitly_wait
。那么在获取不可用的元素之前,会先等待10秒中的时间。示例代码如下:
- 显示等待:显示等待是表明某个条件成立后才执行获取元素的操作。也可以在等待的时候指定一个最大的时间,如果超过这个时间那么就抛出一个异常。显示等待应该使用
selenium.webdriver.support.excepted_conditions
期望的条件和selenium.webdriver.support.ui.WebDriverWait
来配合完成。示例代码如下:
- 一些其他的等待条件:
- presence_of_element_located:某个元素已经加载完毕了。
- presence_of_all_emement_located:网页中所有满足条件的元素都加载完毕了。
- element_to_be_cliable:某个元素是可以点击了。
更多条件请参考: http://selenium-python.readthedocs.io/waits.html
切换页面:
有时候窗口中有很多子tab页面。这时候肯定是需要进行切换的。selenium
提供了一个叫做switch_to_window
来进行切换,具体切换到哪个页面,可以从driver.window_handles
中找到。示例代码如下:
设置代理ip:
有时候频繁爬取一些网页。服务器发现你是爬虫后会封掉你的ip地址。这时候我们可以更改代理ip。更改代理ip,不同的浏览器有不同的实现方式。这里以Chrome
浏览器为例来讲解:
WebElement
元素:
from selenium.webdriver.remote.webelement import WebElement
类是每个获取出来的元素的所属类。
有一些常用的属性:
- get_attribute:这个标签的某个属性的值。
- screentshot:获取当前页面的截图。这个方法只能在
driver
上使用。driver
的对象类,也是继承自WebElement
。
更多请阅读相关源代码。
十五、图形验证码识别技术:
阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR
。实现OCR
的库不是很多,特别是开源的。因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值。因此开源的比较少。这里介绍一个比较优秀的图像识别开源库:Tesseract。
1. Tesseract:
Tesseract是一个OCR库,目前由谷歌赞助。Tesseract是目前公认最优秀、最准确的开源OCR库。Tesseract具有很高的识别度,也具有很高的灵活性,他可以通过训练识别任何字体。
2. 安装:
Windows系统:
在以下链接下载可执行文件,然后一顿点击下一步安装即可(放在不需要权限的纯英文路径下):
https://github.com/tesseract-ocr/
Linux系统:
可以在以下链接下载源码自行编译。
https://github.com/tesseract-ocr/tesseract/wiki/Compiling或者在ubuntu
下通过以下命令进行安装:
Mac系统:
用Homebrew
即可方便安装:
设置环境变量:
安装完成后,如果想要在命令行中使用Tesseract
,那么应该设置环境变量。Mac
和Linux
在安装的时候就默认已经设置好了。在Windows
下把tesseract.exe
所在的路径添加到PATH
环境变量中。
还有一个环境变量需要设置的是,要把训练的数据文件路径也放到环境变量中。
在环境变量中,添加一个TESSDATA_PREFIX=C:\path_to_tesseractdata\teseractdata
。
3. 在命令行中使用tesseract识别图像:
如果想要在cmd
下能够使用tesseract
命令,那么需要把tesseract.exe
所在的目录放到PATH
环境变量中。然后使用命令:tesseract 图片路径 文件路径
。
示例:
那么就会识别出a.png
中的图片,并且把文字写入到a.txt
中。如果不想写入文件直接想显示在终端,那么不要加文件名就可以了。
4. 在代码中使用tesseract识别图像:
在Python
代码中操作tesseract
。需要安装一个库,叫做pytesseract
。通过pip
的方式即可安装:
并且,需要读取图片,需要借助一个第三方库叫做PIL
。通过pip list
看下是否安装。如果没有安装,通过pip
的方式安装:
使用pytesseract
将图片上的文字转换为文本文字的示例代码如下:
5. 用pytesseract
处理拉勾网图形验证码:
十六、Scrapy框架架构
1. Scrapy框架介绍:
写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy
把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy
框架来解决。
2. Scrapy框架模块功能:
Scrapy Engine(引擎)
:Scrapy
框架的核心部分。负责在Spider
和ItemPipeline
、Downloader
、Scheduler
中间通信、传递数据等。Spider(爬虫)
:发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。Scheduler(调度器)
:负责接收引擎发送过来的请求,并按照一定的方式进行排列和整理,负责调度请求的顺序等。Downloader(下载器)
:负责接收引擎传过来的下载请求,然后去网络上下载对应的数据再交还给引擎。Item Pipeline(管道)
:负责将Spider(爬虫)
传递过来的数据进行保存。具体保存在哪里,应该看开发者自己的需求。Downloader Middlewares(下载中间件)
:可以扩展下载器和引擎之间通信功能的中间件。Spider Middlewares(Spider中间件)
:可以扩展引擎和爬虫之间通信功能的中间件。
3. Scrapy安装和文档:
- 安装:通过
pip install scrapy
即可安装。 - Scrapy官方文档: http://doc.scrapy.org/en/latest
- Scrapy中文文档: http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html
注意:
- 在
ubuntu
上安装scrapy
之前,需要先安装以下依赖:sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
,然后再通过pip install scrapy
安装。 - 如果在
windows
系统下,提示这个错误ModuleNotFoundError: No module named 'win32api'
,那么使用以下命令可以解决:pip install pypiwin32
。
4. Scrapy快速入门:
创建项目:
要使用Scrapy
框架创建项目,需要通过命令来创建。首先进入到你想把这个项目存放的目录。然后使用以下命令创建:
目录结构介绍:
以下介绍下主要文件的作用:
- items.py:用来存放爬虫爬取下来数据的模型。
- middlewares.py:用来存放各种中间件的文件。
- pipelines.py:用来将
items
的模型存储到本地磁盘中。 - settings.py:本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)。
- scrapy.cfg:项目的配置文件。
- spiders包:以后所有的爬虫,都是存放到这个里面。
使用Scrapy框架爬取糗事百科段子:
使用命令创建一个爬虫:
创建了一个名字叫做qsbk
的爬虫,并且能爬取的网页只会限制在qiushibaike.com
这个域名下。
爬虫代码解析:
其实这些代码我们完全可以自己手动去写,而不用命令。只不过是不用命令,自己写这些代码比较麻烦。
要创建一个Spider,那么必须自定义一个类,继承自scrapy.Spider
,然后在这个类中定义三个属性和一个方法。
- name:这个爬虫的名字,名字必须是唯一的。
- allow_domains:允许的域名。爬虫只会爬取这个域名下的网页,其他不是这个域名下的网页会被自动忽略。
- start_urls:爬虫从这个变量中的url开始。
- parse:引擎会把下载器下载回来的数据扔给爬虫解析,爬虫再把数据传给这个
parse
方法。这个是个固定的写法。这个方法的作用有两个,第一个是提取想要的数据。第二个是生成下一个请求的url。
修改settings.py
代码:
在做一个爬虫之前,一定要记得修改setttings.py
中的设置。两个地方是强烈建议设置的。
ROBOTSTXT_OBEY
设置为False。默认是True。即遵守机器协议,那么在爬虫的时候,scrapy首先去找robots.txt文件,如果没有找到。则直接停止爬取。DEFAULT_REQUEST_HEADERS
添加User-Agent
。这个也是告诉服务器,我这个请求是一个正常的请求,不是一个爬虫。
完成的爬虫代码:
- 爬虫部分代码:
- items.py部分代码:
- pipeline部分代码:
运行scrapy项目:
运行scrapy项目。需要在终端,进入项目所在的路径,然后scrapy crawl [爬虫名字]
即可运行指定的爬虫。如果不想每次都在命令行中运行,那么可以把这个命令写在一个文件中。以后就在pycharm中执行运行这个文件就可以了。比如现在新创建一个文件叫做start.py
,然后在这个文件中填入以下代码:
5. Scrapy Shell
我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy
是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy
提供了一个shell,用来方便的测试规则。当然也不仅仅局限于这一个功能。
打开Scrapy Shell:
打开cmd终端,进入到Scrapy
项目所在的目录,然后进入到scrapy
框架所在的虚拟环境中,输入命令scrapy shell [链接]
。就会进入到scrapy的shell环境中。在这个环境中,你可以跟在爬虫的parse
方法中一样使用了。
十七、CrawlSpider
在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做,只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider
来帮我们完成了。CrawlSpider
继承自Spider
,只不过是在之前的基础之上增加了新的功能,可以定义爬取的url的规则,以后scrapy碰到满足条件的url都进行爬取,而不用手动的yield Request
。
1. 创建CrawlSpider爬虫:
之前创建爬虫的方式是通过scrapy genspider [爬虫名字] [域名]
的方式创建的。如果想要创建CrawlSpider
爬虫,那么应该通过以下命令创建:
2. LinkExtractors链接提取器:
使用LinkExtractors
可以不用程序员自己提取想要的url,然后发送请求。这些工作都可以交给LinkExtractors
,他会在所有爬的页面中找到满足规则的url
,实现自动的爬取。以下对LinkExtractors
类做一个简单的介绍:
主要参数讲解:
- allow:允许的url。所有满足这个正则表达式的url都会被提取。
- deny:禁止的url。所有满足这个正则表达式的url都不会被提取。
- allow_domains:允许的域名。只有在这个里面指定的域名的url才会被提取。
- deny_domains:禁止的域名。所有在这个里面指定的域名的url都不会被提取。
- restrict_xpaths:严格的xpath。和allow共同过滤链接。
3. Rule规则类:
定义爬虫的规则类。以下对这个类做一个简单的介绍:
主要参数讲解:
- link_extractor:一个
LinkExtractor
对象,用于定义爬取规则。 - callback:满足这个规则的url,应该要执行哪个回调函数。因为
CrawlSpider
使用了parse
作为回调函数,因此不要覆盖parse
作为回调函数自己的回调函数。 - follow:指定根据该规则从response中提取的链接是否需要跟进。
- process_links:从link_extractor中获取到链接后会传递给这个函数,用来过滤不需要爬取的链接。
十八、redis教程:
1. 概述
redis
是一种支持分布式的nosql
数据库,他的数据是保存在内存中,同时redis
可以定时把内存数据同步到磁盘,即可以将数据持久化,并且他比memcached
支持更多的数据结构(string
,list列表[队列和栈]
,set[集合]
,sorted set[有序集合]
,hash(hash表)
)。相关参考文档: http://redisdoc.com/index.html
2. redis使用场景:
- 登录会话存储:存储在
redis
中,与memcached
相比,数据不会丢失。 - 排行版/计数器:比如一些秀场类的项目,经常会有一些前多少名的主播排名。还有一些文章阅读量的技术,或者新浪微博的点赞数等。
- 作为消息队列:比如
celery
就是使用redis
作为中间人。 - 当前在线人数:还是之前的秀场例子,会显示当前系统有多少在线人数。
- 一些常用的数据缓存:比如我们的
BBS
论坛,板块不会经常变化的,但是每次访问首页都要从mysql
中获取,可以在redis
中缓存起来,不用每次请求数据库。 - 把前200篇文章缓存或者评论缓存:一般用户浏览网站,只会浏览前面一部分文章或者评论,那么可以把前面200篇文章和对应的评论缓存起来。用户访问超过的,就访问数据库,并且以后文章超过200篇,则把之前的文章删除。
- 好友关系:微博的好友关系使用
redis
实现。 - 发布和订阅功能:可以用来做聊天软件。
3.redis
和memcached
的比较:
memcached | redis | |
类型 | 纯内存数据库 | 内存磁盘同步数据库 |
数据类型 | 在定义value时就要固定数据类型 | 不需要 |
虚拟内存 | 不支持 | 支持 |
过期策略 | 支持 | 支持 |
存储数据安全 | 不支持 | 可以将数据同步到dump.db中 |
灾难恢复 | 不支持 | 可以将磁盘中的数据恢复到内存中 |
分布式 | 支持 | 主从同步 |
订阅与发布 | 不支持 | 支持 |
4. redis
在ubuntu
系统中的安装与启动
- 安装:
- 卸载:
- 启动:
redis
安装后,默认会自动启动,可以通过以下命令查看:
如果想自己手动启动,可以通过以下命令进行启动:
- 停止:
5. redis在windows系统中的安装与启动:
- 下载:redis官方是不支持windows操作系统的。但是微软的开源部门将redis移植到了windows上。因此下载地址不是在redis官网上。而是在github上:https://github.com/MicrosoftArchive/redis/releases。
- 安装:点击一顿下一步安装就可以了。
- 运行:进入到
redis
安装所在的路径然后执行redis-server.exe redis.windows.conf
就可以运行了。 - 连接:
redis
和mysql
以及mongo
是一样的,都提供了一个客户端进行连接。输入命令redis-cli
(前提是redis安装路径已经加入到环境变量中了)就可以连接到redis
服务器了。
6. 其他机器访问本机redis服务器:
想要让其他机器访问本机的redis服务器。那么要修改redis.conf的配置文件,将bind改成bind [自己的ip地址或者0.0.0.0]
,其他机器才能访问。
注意:bind绑定的是本机网卡的ip地址,而不是想让其他机器连接的ip地址。如果有多块网卡,那么可以绑定多个网卡的ip地址。如果绑定到额是0.0.0.0,那么意味着其他机器可以通过本机所有的ip地址进行访问。
7. 对redis
的操作
对redis
的操作可以用两种方式,第一种方式采用redis-cli
,第二种方式采用编程语言,比如Python
、PHP
和JAVA
等。
- 使用
redis-cli
对redis
进行字符串操作: - 启动
redis
:
- 连接上
:
- 添加:
将字符串值value
关联到key
。如果key
已经持有其他值,set
命令就覆写旧值,无视其类型。并且默认的过期时间是永久,即永远不会过期。
- 删除:
- 设置过期时间:
也可以在设置值的时候,一同指定过期时间:
- 查看过期时间:
- 查看当前
redis
中的所有key
:
- 列表操作:
- 在列表左边添加元素:
将值value
插入到列表key
的表头。如果key
不存在,一个空列表会被创建并执行lpush
操作。当key
存在但不是列表类型时,将返回一个错误。
- 在列表右边添加元素:
将值value插入到列表key的表尾。如果key不存在,一个空列表会被创建并执行RPUSH操作。当key存在但不是列表类型时,返回一个错误。
- 查看列表中的元素:
返回列表key
中指定区间内的元素,区间以偏移量start
和stop
指定,如果要左边的第一个到最后的一个lrange key 0 -1
。
- 移除列表中的元素:
- 移除并返回列表
的头元素:
- 移除并返回列表的尾元素:
- 移除并返回列表
key
的中间元素:
将删除key
这个列表中,count
个值为value
的元素。
- 指定返回第几个元素:
将返回key
这个列表中,索引为index
的这个元素。
- 获取列表中的元素个数:
- 删除指定的元素:
根据参数 count 的值,移除列表中与参数 value 相等的元素。count
的值可以是以下几种:
- count > 0:从表头开始向表尾搜索,移除与
value
相等的元素,数量为count
。 - count < 0:从表尾开始向表头搜索,移除与
value
相等的元素,数量为count
的绝对值。 - count = 0:移除表中所有与
value
相等的值。
-
set
集合的操作:
- 添加元素:
- 查看元素:
- 移除元素:
- 查看集合中的元素个数:
- 获取多个集合的交集:
- 获取多个集合的并集:
- 获取多个集合的差集:
-
hash
哈希操作:
- 添加一个新值:
将哈希表key
中的域field
的值设为value
。
如果key
不存在,一个新的哈希表被创建并进行 HSET
操作。如果域 field
已经存在于哈希表中,旧值将被覆盖。
- 获取哈希中的
field
对应的值:
- 删除
field
中的某个field
:
- 获取某个哈希中所有的
field
和value
:
- 获取某个哈希中所有的
field
:
- 获取某个哈希中所有的值:
- 判断哈希中是否存在某个
field
:
- 获取哈希中总共的键值对:
- 事务操作:Redis事务可以一次执行多个命令,事务具有以下特征:
- 隔离操作:事务中的所有命令都会序列化、按顺序地执行,不会被其他命令打扰。
- 原子操作:事务中的命令要么全部被执行,要么全部都不执行。
- 开启一个事务:
以后执行的所有命令,都在这个事务中执行的。
- 执行事务:
会将在multi
和exec
中的操作一并提交。
- 取消事务:
会将multi
后的所有命令取消。
- 监视一个或者多个
key
:
监视一个(或多个)key,如果在事务执行之前这个(或这些) key被其他命令所改动,那么事务将被打断。
- 取消所有
key
的监视:
- 发布/订阅操作:
- 给某个频道发布消息:
- 订阅某个频道的消息:
十九、Scrapy-Redis分布式爬虫组件
Scrapy
是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis
,这个组件正是利用了Redis
可以分布式的功能,集成到Scrapy
框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、同步爬取)来提高爬虫的爬行效率。
1. 分布式爬虫的优点:
- 可以充分利用多台机器的带宽。
- 可以充分利用多台机器的ip地址。
- 多台机器做,爬取效率更高。
2. 分布式爬虫必须要解决的问题:
- 分布式爬虫是好几台机器在同时运行,如何保证不同的机器爬取页面的时候不会出现重复爬取的问题。
- 同样,分布式爬虫在不同的机器上运行,在把数据爬完后如何保证保存在同一个地方。
3. 安装:
通过pip install scrapy-redis
即可安装。
4. Scrapy-Redis架构:
Scrapy架构图:
Scrapy-Redis架构图:
分布式爬虫架构图:
以上两个图片对比我们可以发现。Item Pipeline
在接收到数据后发送给了Redis
、Scheduler
调度器调度数据也是从Redis
中来的、并且其实数据去重也是在Redis
中做的。
5. 编写Scrapy-Redis分布式爬虫:
要将一个Scrapy
项目变成一个Scrapy-redis
项目只需修改以下三点就可以了:
- 将爬虫的类从
scrapy.Spider
变成scrapy_redis.spiders.RedisSpider
;或者是从scrapy.CrawlSpider
变成scrapy_redis.spiders.RedisCrawlSpider
。 - 将爬虫中的
start_urls
删掉。增加一个redis_key="xxx"
。这个redis_key
是为了以后在redis
中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个发送出去的。 - 在配置文件中增加如下配置:
- 运行爬虫:
- 在爬虫服务器上。进入爬虫文件所在的路径,然后输入命令:
scrapy runspider [爬虫名字]
。 - 在
Redis
服务器上,推入一个开始的url链接:redis-cli> lpush [redis_key] start_url
开始爬取。