urllib模块

...

一、urllib请求库
包括以下模块:
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.ronotparser robots.txt模块



1.urllib.request.urlopen 方法.
(1) 参数介绍:
urlib.request.urlopen(url,
data=None,
[timeout,]*,
cafile=None,
capath=None,
cadefault=False,
context=None)
常用参数urllib.urlopen(url,data,timeout) # 打开后用response.read()获取到网页中的内容
1.data 参数:
bytes(urlib.parse.urlencode()) 可以将post请求数据放到data参数中,请求时带着data请求,
这样就完成了一次post请求
如果post请求没有data参数就可以看做一次get请求
2.timeout参数:
如果网络很慢,或者请求异常 timeout参数可以设置一个超时时间,而不是让请求一直等下去.
需要异常抓取
(2) 响应: response
response.status #获取状态码
response.getheaders() #获取头部信息
response.read()# 获取响应体的内容
2.request
设置request
1. 有很多网站为了防止爬虫造成网站瘫痪,会需要携带一些headers头部信息才能访问.
最常见的有user-agent参数

posted on 2018-09-12 17:28 徐建0304 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/Treasuremy/p/9636131.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值