爬虫基础课1_urllib库

一、urllib简介

1、urllib介绍

urllib是Python自带的标准库中用于网络请求的库,无需安装,直接引用即可

通常用于爬虫开发、API(应用程序编程接口)数据获取和测试-

2、urllib库的4大模块

urllib.request :用于打开和读取URL

urllib.error:包含提出的例外(异常)urllib.request

urllib.parse:用于解析URL

urllib.robotparser:用于解析robots.txt文件

3、urllib.parse库

(1)实验

# urllib.parse 用于解析Url
import urllib.parse

kw = {'wd': 'https://www.baidu.我爱你.com'}
# 对字符进行编码
result = urllib.parse.urlencode(kw)
print(result)

# 对结果进行解码
res = urllib.parse.unquote(result)
print(res)

 

4、urllib.request库

(1)urllib.request库

1、urllib.request库的作用

发送请求,模拟浏览器发起一个HTTP请求,并获取请求响应结果

2、urllib.request.urlopen的语法格式

urlopen(url,data=None, [timeout,]*, cafile=None, capath=None,cadefault=False, context=None)

url: url参数是str类型的地址,也就是要访问的URL,例如: 百度一下,你就知道
data:默认值为None,即代表请求方式为Get,反之请求方式为Post。发送Post请求时,参数data以字典形式存储数据,并将参数data由字典类型转换成字节类型才能完成Post请求

3、返回的结果

urlopen函数返回的结果是一个http.client.HTTPResponse对象

(2)Get请求实验

爬取的网站:教务处

1、查看爬取的网站返回的类型,如下'utf-8'另外还有'gbk'等其他类型

 

  1. 编写代码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值