Python爬虫
爬虫基本原理
爬虫概述
爬虫就是获取网页并提取和保存信息的自动化程序,其首要工作就是获取网页,以下是获取网页的源代码。
###获取网页
源代码里包含了王爷的部分有用信息,只需要把源代码获取下来就得到所需要的信息了。
import requests
#待爬取的URL地址
url = 'https://www.baidu.com/'
#模拟浏览器发出请求
res = requests.get(url)
#对数据编码
res.encoding = 'utf-8'
#保存数据
with open('百度.html','wb') as f:
f.write(res.content)
提取信息
获取网页的源代码以后,接下来就是分析网页的源代码。首先,最通用的方法是采用正则表达式提取,这是一个万能的方法但是在构造正则表达式时比较复杂且容易出错。
另外,由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS选择器或XPath来提取网页信息的库,如Beautiful Soup、pyquery、lxml等。使用这些库我们可以高效快速的从网页中提取信息,如结点的属性,文本值等。
提取信息是爬虫非常重要的部分,它可以使杂乱的数据变得条理清晰,一边我们后续处理和分析数据。
保存数据
提取信息后,我们一般会将提取到的数据保存到某处以便后续使用。保存形式多样,如可简单保存为txt文本或者JSON文本,也可以保存到数据库,如MySOL和MongoDB等,也可以保存至远程服务器如借助SFTP进行操作。
##HTTP请求过程
我们在浏览器中输入一个URL,回车之后便会在浏览器中观察到页面内容。实际上这个过程是浏览器像网站所在的服务器发送了一个请求,网站服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,使将网页呈现出来
请求方法
方法 | 描述 |
---|---|
GET | 请求页面,并返回内容 |
HEAD | 类似于GET请求,只不过返回的响应中没有具体的内容没用于获取报头 |
POST | 大多用于提交表单或上传文件,数据包含在请求体中 |
PUT | 从客户端向服务器传送的数据取代指定文档中的内容 |
DELETE | 请求服务器删除指定的页面 |
CONNECT | 把服务器当作跳板,让服务器代替客户端访问其他网页 |
OPTIONS | 允许客户端查看服务器的性能 |
TRACE | 回显服务器收到的请求主要用于测试或诊断 |
请求的网址
请求的网址统一使用资源定位符URL,它可以唯一确定我们像请求的资源
请求头
参考资料:https://byvoid.com/zhs/blog/http-keep-alive-header/
- Accept
- Accept-Language
- Accept-Encoding
- Host 主机
- Cookie 会话信息 身份
- Referer 记录来源
- User-Agent 浏览器的指纹信息
- Content-type 类型
请求体
请求体一般承载的内容是POST请求中的表单数据。
而对于GET请求,请求体则为空
响应
响应,由服务器返回给客户端,可以分为三部分,响应状态码(Response Status Code),响应头(Response Headers)和响应体(Response Body)
响应状态码表示服务器的响应状态,如200代表服务器正常响应,404代表页面未找到,500代表服务器内部发生错误。在爬虫中,我们可以根据状态码来判断服务器响应状态,如状态码为200.则证明成功返回数据,再进行进一步处理,否则直接忽略。
以下为常见的状态码及原因:
状态码 | 说明 | 详情 |
---|---|---|
100 | 继续 | 请求者应当继续提出请求。服务器已经收到请求的一部分,正在等待其余部分 |
101 | 切换协议 | 请求者已要求服务器切换协议,服务器已确认并准备切换 |
200 | 成功 | 服务器已成功处理了请求 |
201 | 已创建 | 请求成功并且服务器创建了新的资源 |
202 | 已接受 | 服务器已接受请求,但尚未处理 |
203 | 非授权信息 | 服务器已成功处理了请求,但返回的信息可能来自另一个源 |
204 | 无内容 | 服务器成功处理了请求,但没有返回任何内容 |
205 | 重置内容 | 服务器成功处理了请求,内容被重置 |
206 | 部分内容 | 服务器成功处理了部分请求 |
300 | 多种选择 | 针对请求,服务器可执行多种操作 |
301 | 永久移动 | 请求的网页已永久移动到新位置,即永久重定向 |
302 | 临时移动 | 请求的网页暂时跳转到其他页面,即暂时重定向 |
303 | 查看其它位置 | 如果原来的请求时POST,重定向目标文档应该通过GET提取 |
304 | 未修改 | 此次请求返回的网页未修改,继续使用上次的资源 |
305 | 使用代理 | 请求者应该使用代理访问该网页 |
307 | 临时重定向 | 请求的资源临时从其他位置响应 |
400 | 错误请求 | 服务器无法解析该请求 |
401 | 未授权 | 请求没有进行身份验证或验证未通过 |
403 | 禁止访问 | 服务器拒绝此请求 |
404 | 未找到 | 服务器找不到请求的网页 |
405 | 方法禁用 | 服务器禁用了请求中指定的方法 |
406 | 不接受 | 无法使请求的内容响应请求的网页 |
407 | 需要代理授权 | 请求者需要使用代理授权 |
408 | 请求超时 | 服务器请求超时 |
409 | 冲突 | 服务器在完成请求时发生冲突 |
410 | 已删除 | 请求的资源已永久删除 |
411 | 需要有效长度 | 服务器不接受不含有效内容长度标头字段的请求 |
412 | 未满足前提条件 | 服务器未满足请求者在请求中设置的其中一个前提条件 |
413 | 请求实体过大 | 请求实体过大,超出服务器的处理能力 |
414 | 请求URL过长 | 请求网址过长,服务器无法处理 |
415 | 不支持类型 | 请求格式不被请求页面支持 |
416 | 请求范围不符 | 页面无法提供请求的范围 |
417 | 未满足期望值 | 服务器未满足期望请求标头字段的要求 |
500 | 服务器内部错误 | 服务器遇到错误,无法完成请求 |
501 | 未实现 | 服务器不具备完成请求的功能 |
502 | 错误网关 | 服务器作为网关或代理,从上游服务器收到无效响应 |
503 | 服务不可用 | 服务器目前无法使用 |
504 | 网关超时 | 服务器作为网关或代理,但是没有及时从上游服务器收到请求 |
505 | HTTP版本不支持 | 服务器不支持请求中所有的HTTP协议版本 |
###响应头
响应头包含了服务器对请求的应答信息,如Content-Type、Server、Set-Cookie等,以下是一些常用响应头:
- Date:标识相应产生的时间
- Last-Modified:指定资源的最后修改时间
- Content-Encoding:指定响应内容的编码
- Server:包含服务器的信息,比如名称,版本号等
- Content-Type:文档类型,指定返回的数据类型是什么,如text/html代表返回HTML文档,application/x-javascript则代表返回JavaScript文件,image/jpeg代表返回图片
- Set-Cookie:设置Cookie。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies请求
- Expires:指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时,就可以直接从缓存中加载,降低服务器负载,缩短加载时间。
响应体
响应的正文数据都在响应体中,比如请求网页时,他的响应体就是网页的HTML代码;请求一张图片时,它的响应体就是图片的二进制数据,我们做爬虫请求网页后,要解析的内容就是响应体
浏览器开发者工具中点击Preview,就可以看到王爷的源代码,也就是具体相应内容,它是解析目标
在做爬虫时,我们主要通过响应体得到网页的源代码、JSON数据等,然后从中做相应内容的提取
requests库使用
Requests唯一的一个非转基因的Python HTTP库,可安全使用
环境搭建
pip install requests
基本使用
import requests
r = requests.get('http://www.baidu,com/')
print(type(r))
print(r.status_code)#打印HTTP请求过程状态码
print(type(r.text))
print(r.text)#打印网站的代码
print(r.cookies)
res = requests.request('GET','http://www.baidu,com/')
#从request包中调用GET方法
测试实例
r = requests.post('http://httpbin.org/post')
r = requests.put('http://htttpbin.org/put')
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/head')
r = requests.options('http://httpbin.org/options')
###GET获取参数案例
import requests
data = {
'name':'germey',
'age':22
}
res1 = requests.get("http://httpbin.org/get",params=data)
#params表示查询参数
#def get(url,params=None,**kwargs):
#def post(url,data=None,json=None,**kwargs):
print(r.text)
添加头部信息
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36 Core/1.77.106.400 QQBrowser/10.9.4626.400'}
r = requests.get("https://www.csdn.net/",headers=headers)
print(r.text)