MOOC_Python网络爬虫与信息提取Week1

最新推荐文章于 2020-07-15 14:19:34 发布

除了鸽什么也不会

最新推荐文章于 2020-07-15 14:19:34 发布

阅读量167

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/qq_23095921/article/details/80170542

版权

python 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

自动爬取HTML页面

常见异常:

requests.ConnectionError 网络连接错误异常（DNS查询失败、拒绝连接）
requests.HTTPError HTTP错误异常
requests.URLRecuired URL缺失异常
requests.ToomanyRedirects 超过最大重定向次数（重定向异常）
requests.ConnectTimeout 连接远程服务器，超时异常
requests.Timeout 请求URL超时，超时异常

response 返回所有的网页内容

r.raise_for_status() 如果不是200，产生异常requests.HTTPError

爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raies_for_status() # 状态不是200 ，引发HTTPError
        return r.text
    except:
        return "产生异常"

if_name_ == "_main_":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

HTTP协议与主要方法

requests.request() 构造一个请求，支撑以下方法的基础方法
requests.get() 获取HTML网页的主要方法，对应HTTP的get
requests.head() 获取HTML网页头信息的方法，对应HEAD
requests.post() 向HTML网页提交POST请求的方法，对应于POST
requests.put() 向HTML网页提交PUT请求的方法，对应PUT
request.patch() 向HTML 网页提交局部修改请求，对应PATCH
request.delete() 向HTML页面提交删除请求，对应于DELETE

requests.request(method,url,**kwargs)

method: 请求方式，对应get/put/post等7种
url：拟获取页面的url链接
**kwargs：控制访问的参数，共13个
eg. r=requests.request('GET',url,**kwargs)
r=requests.request('OPTIONS',url,**kwargs) 获取服务器客户端参数

**kwargs：控制访问的参数，均为可选项
星号开头表示可选，需要命名调用

params：字典或字节序列，作为参数增加到url中

kv={‘key1’:’value1’,’key2’:’value2’}
r=requests.request(‘GET’,’http://python123.io/ws‘, params=kv)
print(r.url)
http://python123.io/ws?key1=value1&key2=value2
data:字典、字节序列或文件对象，作为request的内容

kv={‘key1’:’value1’,’key2’:’value2’}
r=requests.request(‘GET’,’http://python123.io/ws‘, params=kv)
body = ‘主体内容’
r = requests.request(‘POST’,’http://python123.io/ws‘,data=body)
json:JSON格式的数据，作为request的内容

kv={‘key1’:’value1’}
r=requests.request(‘POST’,’http://python123.io/ws‘, json=kv)
headers：字典，HTTP定制头

hd = {‘user-agent’: ‘Chrome/10’} 浏览器版本
r = requests.request(‘POST’, ‘http://python123.io/ws‘, headers=hd)

高级功能
5. cookies: 字典或cookiejar，request中的cookie
6. auth：元组，支持HTTP认证功能
7. files: 字典类型，传输文件
fs = {‘file’: open(‘data.xls’,’rb’)}
r = requests.request(‘POST’,’http://python123.io./ws‘, files=fs)
8. timeout: 设定超时时间，秒为单位
r = requests.request(‘GET’,’http://www.baidu.com‘, timeout=10)
9. proxies: 字典类型，设定访问代理服务器，可以增加登录认证
代理IP，防止逆追踪
pxs = {‘http’: ‘http://user:pass@10.10.10.1:1234‘}
‘https’: ‘https://10.10.10.1:4321’ }
r = requests.request(‘GET’,’http://www.baidu.com‘,proxies=pxs)
10. allow_redirects: True/False，默认为True,重定向开关
11. stream: True/False, 默认为True，获取内容立即下载开关
12. verify： True/False，默认为True，认证SSL证书开关
13. cert：本地SSL证书路径

requests.get(url,params=None,**kwargs)
最常用
url:拟获取页面的url链接
params：url中的额外参数，字典或字节流格式，可选
*kwargs：12个控制访问的参数除了params*

requests.head(url,**kwargs)
url:拟获取页面的url链接
**kwargs：13个控制访问的参数

requests.post(url,data=None,json=None,**kwargs)
url:拟更新页面的url链接
data：字典、字节序列或文件，Request的内容
json：JSON格式的数据，Request的内容
**kwargs：11个控制访问的参数

requests.put(url,data=None,**kwargs)
url:拟更新页面的url链接
data：字典、字节序列或文件，Request的内容
**kwargs：12个控制访问的参数

requests.delete(url,**kwargs)
url:拟更新页面的url链接
**kwargs：13个控制访问的参数

HTTP协议对资源的操作

GET 请求获取URL位置的资源
HEAD 请求获取URL为止资源的响应信息报告，即获得该资源的头部信息
用很少的网络流量获取网络资源的概要信息

r = requests.head('http://httpbin.org/get')    
r.headers    
...    
r.text

POST 请求获取URL位置的资源后附加新的数据，不改变现有内容
向URL POST一个字典自动编码为form（表单）

payload = {'key1':'value1','key2':'value2'}    
r = requests.post('http://httpbin.org/post', data = payload)    
print(r.text)    
{  ...    
   "form": {    
   ""key2": "value2",    
   ""key1": "value1"    
  },      
}

向URL POST一个字符串自动编码为data

r = quests.post('http://httpbin.org/post',data = 'ABC')    
print(r.text)     
{ ...    
  "data": "ABC"    
  "form":{},    
 }

PUT 请求向URL位置存储一个资源，覆盖原URL位置的资源

payload = {'key1':'value1','key2':'value2'}    
r = requests.put('http://httpbin.org/post', data = payload)    
print(r.text)    
{  ...    
   "form": {    
   ""key2": "value2",    
   ""key1": "value1"    
  },      
}

PATCH 请求**局部更新**URL位置的资源，即改变该处资源的部分内容
DELETE 请求删除URL位置存储的资源

云端→用户：GET HEAD
用户→云端： PUT POST PATCH DELETE

理解PATCH和PUT的区别

假设URL位置有一组数据UserInfo（包括userID userName）等
需求：用户修改userName，其他不变

采用PATCH 仅向URL提交userName的局部更新
采用PUT 必须将所有20字段一并提交

HTTP协议：
HTTP，Hypertext Transfer Protocol，超文本传输协议
HTTP是基于“请求与响应”模式的、无状态的应用层协议。
采用URL作为定位网络资源的标识，URL是通过HTTP协议存取资源的Internet路径。URL对应一个数据资源。

http：//host[:port][path]

host: 合法的Internet主机域名或IP地址 port：端口号，缺省端口为80

• 介绍ROBOTS.TXT协议
• 爬虫实例

小结

requests库入门

requests.request() 构造一个请求，支撑以下方法的基础方法
requests.get() 获取HTML网页的主要方法，对应HTTP的get
requests.head() 获取HTML网页头信息的方法，对应HEAD
requests.post() 向HTML网页提交POST请求的方法，对应于POST
requests.put() 向HTML网页提交PUT请求的方法，对应PUT
request.patch() 向HTML 网页提交局部修改请求，对应PATCH
request.delete() 向HTML页面提交删除请求，对应于DELETE

由于网络安全限制，很难向url发起put patch delete
最常用：get 特别大的：head 来获得概要

爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raies_for_status() # 状态不是200 ，引发HTTPError      
        return r.text
    except:
        return "产生异常"

if_name_ == "_main_":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

网络连接有风险异常处理很重要：D

除了鸽什么也不会

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MOOC_Python网络爬虫与信息提取Week1

自动爬取HTML页面常见异常:requests.ConnectionError 网络连接错误异常（DNS查询失败、拒绝连接） requests.HTTPError HTTP错误异常 requests.URLRecuired URL缺失异常 requests.ToomanyRedirects 超过最大重定向次数（重定向异常） requests.ConnectTimeo...
复制链接

扫一扫