python爬虫基础库之urllib

引入

   工欲善其事,必先利其器。想要写爬虫去获取数据,前提是先要对写爬虫需要用到的工具有足够的了解,这样才能有最大的可能实现需求。这篇文章的主角就是在做爬虫是处理网络请求时最基本、常用的工具。

urllib库

urllib官方文档: https://docs.python.org/3/library/urllib.html.

urllib拥有四大战将,他们分别是:

1.urllib.request:专门负责请求,打开、读取URL
2.urllib.error:专门负责处理异常
3.urllib.parse:专门负责解析URL
4.urllib.robotparser:专门负责处理网站的robot.txt文件

1.urllib.request

   request模块主要功能是发送request请求,接收服务器返回的response(回复)。其中常用的方法如下:

1.urllib.request.urlopen()
千言万语不如实践,上代码:

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode("utf-8"))

成功将百度主页源代码抓取下来:
在这里插入图片描述
read()是啥?且耐心往下看。
现在看看response到底是什么,

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
print(type(response))

运行一下,可以看到输出结果:
在这里插入图片描述
原来,通过urlopen返回的是一个HTTPResponse对象,这个对象又被赋给response变量。既然是个对象,那就可能会有属于它的方法、属性等。它主要包含的方法有 read()、readinto()、getheader()、getheaders()、fileno() 等方法和 msg、version、status、reason、debuglevel、closed 等属性。如通过read()方法(上面用到的)就可以得到请求目标网页的内容。另外,调用urlopen方法并不是一次性得到所有的内容,只能得到response header,只有调用read()方法时才会去获取网页内容(请求了两次)。
可以试一下其他方法及属性:

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
print(type(response))
print(response.getheaders())
print(response.status)
print(response.msg)
print(response.version)

在这里插入图片描述
上面抓取百度主页的小例子用的请求方法时get请求,我们知道,浏览器向服务器发送请求的方式不只是get请求,常用的还有post、put等请求方式。当我们希望向服务器提交数据时,此时get请求不能满足我们的所有需求,那要该怎么实现呢?很简单,我们先看一下urlopen的API:

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

我们只要将要发送给服务器的数据传给data参数就行了。举个栗子:

import urllib.request
import 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值