Python爬虫1.0——urllib库部分基础操作

最新推荐文章于 2024-08-06 17:45:33 发布

海棠花开

最新推荐文章于 2024-08-06 17:45:33 发布

阅读量159

点赞数

分类专栏： python 文章标签： python 爬虫 python爬虫

本文链接：https://blog.csdn.net/smallhc/article/details/103158508

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Python学习文章索引

本文主要介绍urllib库一些函数的用法

1、使用urlopen函数进行请求

from urllib import request
res = request.urlopen('http://www.baidu.com')#打开请求，默认用的post
print(res.read())

结果展示：
用记事本打开后大概的样子
在上面获得的内容下，也可以如下这样选择获得一些内容

#按部分读取请求
res.read(10)
res.readline()
res.readlines()
#获取请求的状态码
res.getcode()

2、使用urlretrieve函数下载资源

使用本函数访问百度，并且下载到将内容保存的本地的baidu.html文件（这里保存到了项目根目录下）

from urllib import request
request.urlretrieve('http://www.baidu.com', 'baidu.html')

结果展示：
在这里插入图片描述

3、使用urlencode函数进行编码

直接百度搜索刘德华的话会是这个链接：https://www.baidu.com/s?ie=UTF-8&wd=刘德华，下面展示如何对url编码

from urllib import parse
params = {"wd":"刘德华"}
str = parse.urlencode(params)
url = 'https://www.baidu.com/s?ie=UTF-8&'+str
print(url)

结果展示

https://www.baidu.com/s?ie=UTF-8&wd=%E5%88%98%E5%BE%B7%E5%8D%8E

4、使用parse_qs函数进行解码

from urllib import parse
params = {"name":"张三","age":"20"}
params = parse.urlencode(params)#编码
print(params)
qs = parse.parse_qs(params)#解码
print(qs)

结果展示：

name=%E5%BC%A0%E4%B8%89&age=20
{'name': ['张三'], 'age': ['20']}

5、使用urlparse解析url

from urllib import parse
url = 'http://www.baidu.com/s?wd=python&username=abc#1'
result = parse.urlparse(url)#解析上面的url
print(result)
#选择性输出结果
print('输出scheme:',result.scheme)
print('输出netloc:',result.netloc)
print('输出path:',result.path)
print('输出params:',result.params)
print('输出query:',result.query)
print('输出fragment:',result.fragment)

结果展示：

ParseResult(scheme='http', netloc='www.baidu.com', path='/s', params='', query='wd=python&username=abc', fragment='1')
输出scheme: http
输出netloc: www.baidu.com
输出path: /s
输出params: 
输出query: wd=python&username=abc
输出fragment: 1

海棠花开

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫1.0——urllib库部分基础操作

Python学习文章索引本文主要介绍urllib库一些函数的用法1、使用urlopen函数进行请求from urllib import requestres = request.urlopen('http://www.baidu.com')#打开请求，默认用的postprint(res.read())结果展示：在上面获得的内容下，也可以如下这样选择获得一些内容#按部分读取请求...
复制链接

扫一扫

专栏目录