python爬虫学习笔记(一):urllib是什么

什么是urllib?

urllib是python内置的爬虫库,它包含4个模块:

  • request: 基础的 HTTP 请求模块。
  • error: 异常处理模块。
  • parse: 用于解析 URL 的模块。
  • robotparser: 识别网站中 robots.txt 文件。

urlopen的使用

urlopen()的原型:

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

除了url之外,其它参数都是默认的。

第一只爬虫

# 导入urllib的request模块
import urllib.request
#用urlopen得到网页的响应
response = urllib.request.urlopen('https://www.geekdigging.com/')
print(response.read().decode('utf-8'))

运行结果是打印了整个网页的源代码

response是什么

#print the type of response
print(type(response))

由运行结果看出,它是一个HTTPResponse类型的对象:

<class 'http.client.HTTPResponse'>

那么什么是HTTPResponse对象?
HTTPResponse 是对 HTTP 响应的包装。它提供了对请求头和请求体的访问。这个响应是一个可以迭代的对象。
HTTPResponse主要包含 read()readline()getheader(name)getheaders()fileno() 等方法,以及 msgversionstatusreasondebuglevelclosed 等属性。
version可以获取HTTP协议版本号(10 for HTTP/1.0, 11 for HTTP/1.1)

>>> print(response.version)
11

status获取响应码

>>> print(response.status)
200
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值