Python网络爬虫与信息提取学习记录（一）

最新推荐文章于 2024-07-20 17:12:48 发布

斗栱

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量427

点赞数

分类专栏：爬虫文章标签： Requests库 HTTP协议网络爬虫 Robots协议编码处理

本文链接：https://blog.csdn.net/oljisfcy/article/details/120037516

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

『第一周』Requests库的使用及Robots协议

文章目录

前言
Requests库
Robots协议
参考链接

前言

课程地址：https://www.icourse163.org/course/BIT-1001870001

课程教学内容包括：

Python第三方库Requests ，讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法；
Python第三方库Beautiful Soup ，讲解从所爬取HTML页面中解析完整Web信息的方法；
Python标准库Re ，讲解从所爬取HTML页面中提取关键信息的方法；
Python第三方库Scrapy ，介绍通过网络爬虫框架构造专业网络爬虫的基本方法。

Requests库

帮助文档：https://docs.python-requests.org/zh_CN/latest/

Requests库的安装¹

打开cmd，输入

pip install requests

指令安装requests库，出现Successfully install requests-xxx即代表安装成功

由于下载地址在国外，部分地区可能下载速度慢甚至无法下载。所以可以考虑使用国内镜像源。

例如使用清华大学开源软件镜像站

临时使用：

pip install -i [https://pypi.tuna.tsinghua.edu.cn/simple](https://pypi.tuna.tsinghua.edu.cn/simple) requests

如果要设为默认需要升级 pip 到最新的版本 (>=10.0.0) 后进行配置：

# 升级pip
pip install pip -U
# 设置清华源为默认设置
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

如果到 pip 默认源的网络连接较差，临时使用本镜像站来升级 pip：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip -U

附1：常用国内镜像源：²

阿里云	http://mirrors.aliyun.com/pypi/simple/
豆瓣	http://pypi.douban.com/simple/
清华大学	https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学	http://pypi.mirrors.ustc.edu.cn/simple/

附2：简单更换pip国内镜像源的方法

https://pypi.org/project/pqi/

附3：如果使用的是Pycharm，可在设置-项目-Python解释器里安装对应第三方库

Pycharm安装第三方库

爬取百度主页

>>> import requests
>>> r = requests.get("https://www.baidu.com")
>>> r.status_code
200
>>> r.encoding = r.apparent_encoding
>>> r.text[:500]    # 为节省空间，只取了返回百度主页html的前500字符
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src='

Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法,对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

其中request()为基础方法，其他6个方法都是通过调用request()方法来实现的

7个主要方法详述

requests.request(method, url, **kwargs)

method: 请求方式
- r = request.request(‘GET’, url, **kwargs)
- r = request.request(‘HEAD’, url, **kwargs)
- r = request.request(‘POST’, url, **kwargs)
- r = request.request(‘PUT’, url, **kwargs)
- r = request.request(‘PATCH’, url, **kwargs)
- r = request.request(‘DELETE’, url, **kwargs)
- r = request.request(‘OPTIONS’, url, **kwargs)
**kwargs: 控制访问的参数，均为可选项
- params: 字典或字节序列，作为参数增加到url中
- data: 字典、字节序列或文件对象，作为Request的内容
- json: JSON格式的数据，作为Request的内容
- headers: 字典，HTTP定制头
- cookies: 字典或CookieJar，Request中的cookie
- auth: 元组，支持HTTP认证功能
- file: 字典类型，传输文件
- timeout: 设定超时时间，秒为单位
- proxies: 字典类型，设定访问代理服务器，可以增加登录认证
- allow_redirects: True/False，默认为True，重定向开关
- stream: True/False，默认为True，获取内容立即下载开关
- verify: True/False，默认为True，认证SSL证书开关
- cert: 本地SSL证书路径

requests.get(url, params=None, **kwargs)

url: 拟获取页面的url链接
params: url中的额外参数，字典或字节流格式，可选
**kwargs: 12个控制访问的参数

requests.head(url, **kwargs)

url: 拟获取页面的url链接
**kwargs: 13个控制访问的参数

requests.post(url, data=None, json=None, **kwargs)

url: 拟更新页面的url链接
data: 字典、字节序列或文件，Request的内容
json: JSON格式的数据，Request的内容
**kwargs: 11个控制访问的参数

requests.put(url, data=None, **kwargs)

url: 拟更新页面的url链接
data: 字典、字节序列或文件，Request的内容
**kwargs: 12个控制访问的参数

requests.patch(url, data=None, **kwargs)

url: 拟更新页面的url链接
data: 字典、字节序列或文件，Request的内容
**kwargs: 12个控制访问的参数

requests.delete(url, **kwargs)

url: 拟获取页面的url链接
**kwargs: 13个控制访问的参数

r = requests.get(url)

get会构造一个向服务器请求资源的Request对象，服务器会返回一个Response对象，包含服务器返回的所有信息和向服务器请求的request信息

requests.get(url, params=None, **kwargs)

url：拟获取页面的url链接
params：url中的额外参数，字典或字节流格式，可选
**kwargs：12个控制访问的参数

Response对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

Response的编码

属性	说明
.encoding	从HTTP header中charset获取，若无则认为ISO-8859-1
.apparent-encoding	使用chardet.detect从内容中分析，比较耗时，还有一个confidence（可信度）

如何获取正确编码可以尝试以下思路：³

if r.encoding == 'ISO-8859-1':
  r.encoding = r.apparent_encoding
  
# 如果网站指定了编码，则用网站的。如果没有指定，则从内容中分析。
# 一个特例：网站指定编码为ISO-8859-1

若为了性能，可以指定编码，减少分析编码的耗时。

Requests异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

利用try…except来处理网络访问中出现的异常

# 爬取网页的通用代码框架
import requests
def get_html_text(get_url):
    try:
        r = requests.get(get_url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ == '__main__':
    url = 'https://www.baidu.com'
    print(get_html_text(url))

HTTP协议

HTTP（Hypertext Transfer Protocol）超文本传输协议。

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

请求与响应：用户发起请求，服务器作出相应响应。
无状态：第一次请求和第二次之间没有关联。
应用层：该协议工作在TCP层之上

HTTP协议采用URL作为定位网络资源的标识。

URL格式http://host[:port][path]

host: 合法的 Internet主机域名或地址
port: 端囗号，缺省端囗为80
path: 请求资源的路径

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容的资源
DELETE	请求删除URL位置存储的资源

和Requests库提供的6个函数功能一一对应

Robots协议

网络爬虫的尺寸

小规模，数据量小	中规模，数据规模较大	大规模，搜索引擎
爬取速度不敏感	爬取速度敏感	爬取速度关键
Requests库	Scrapy库	定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

爬虫引发的问题

骚扰问题
- 爬虫可以1秒中爬取几万次甚至十几万次，服务器很难提供高性能的服务。受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。
法律风险
- 服务器上的数据有产权归属
- 网络爬虫获取数据后牟利将带来法律风险
隐私泄露
- 隐私网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私。

网络爬虫的限制

来源审查：判断User-Agent进行限制
- 检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。
发布公告：Robots协议
- 告知所有爬虫网站的爬取策略，要求爬虫遵守。

Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。

形式：在网站根目录下的robots.txt文件。

例百度网站Robots协议的节选：https://www.baidu.com/robots.txt

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: *
Disallow: /

Robots协议的基本语法

#注释  *代表所有  /代表根目录

Robots协议的遵守方式

Robots协议的使用

网络爬虫：自动或人工识别robots.txt，再进行内容爬取。
约束性： Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险。

网站本来是为了提供信息给人类，如果程序的访问与人的访问相当，不对服务器造成较大影响，可以不遵守Robots协议。

参考链接

菜鸟教程.Python pip 安装与使用.https://www.runoob.com/w3cnote/python-pip-install-usage.html ↩︎
I PASTLE.常用国内pip镜像源.https://blog.csdn.net/qq_38621834/article/details/99417630 ↩︎
().requests:r.encoding比r.apparent_encoding更准确？.https://www.zhihu.com/question/264878732 ↩︎

斗栱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫与信息提取学习记录（一）

『第一周』Requests库的使用及Robots协议文章目录前言Requests库Requests库的安装[^1]爬取百度主页Requests库的7个主要方法r = requests.get(url)Response对象的属性Response的编码Requests异常HTTP协议HTTP协议对资源的操作Robots协议网络爬虫的尺寸爬虫引发的问题网络爬虫的限制Robots协议Robots协议的基本语法Robots协议的遵守方式参考链接前言课程地址：https://www.icourse163.or.
复制链接

扫一扫