从零开始，手把手教你python爬取美足船袜网！

最新推荐文章于 2022-08-28 09:09:40 发布

懒笔头

最新推荐文章于 2022-08-28 09:09:40 发布

阅读量1.8w

点赞数 4

分类专栏： Python

原文链接：https://www.52pojie.cn/thread-1048416-1-1.html

版权

Python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

目标网址：http://mzsock.com 美足船袜网
你懂得！！

这里先给大家介绍一个python自带的库：urllib.request
urllib.request --- 用于打开 URL 的可扩展库

使用库之前要引用，urllib.request是标准库，安装就自带，所以直接引用就好了！

官方文档：https://docs.python.org/zh-cn/3.7/library/urllib.request.html
大家可以自行查看和了解，也可以百度搜索了解它的用法！
引用方法

from urllib import request

你可以理解为从urllib包里使用request

这里为大家介绍我们需要使用到urllib.request 库的用法，也是比较常用的用法：
1.urlopen
打开指定的网页

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数，可以是一个string，或者一个Request对象。 data一定是bytes对象，传递给服务器的数据，或者为None。目前只有HTTP requests会使用data，提供data时会是一个post请求，如若没有data，那就是get请求。data在使用前需要使用urllib.parse.urlencode()函数转换成流数据。

具体使用：
resp=request.urlopen('目标网址')
比如：打开百度

from urllib import request
 
resp=request.urlopen('http://www.baidu.com')
print(type(resp))
#可以看出，urlopen返回的是一个HTTPResponse对象

这里我们返回的是一个HTTPResponse对象，那么怎么变成我们想要的源码文本呢？
很简单，第二个用法，直接后面加.read()

2.req.read()
把我们想要的内容读取出来

response = request.urlopen(url)
req=response.read()

3.最后一个字符转换，你经过上面的步骤，你会发现返回的是乱码，其实返回的是bytes对象，这里我们需要转码我们熟悉的编码格式，一般是"utf-8"，
后面直接加.decode("utf-8")
由于urlopen无法判断数据的encoding，所以返回的是bytes对象。一般会对返回的数据进行decode。

response = request.urlopen(url)
req=response.read()
req=req.decode('utf-8')

现在我们可以尝试打开我们想要爬取的目标网址了！

from urllib import request
 
url = "http://mzsock.com"
response = request.urlopen(url)
print(response)
req=response.read()
print(req)
reqs=req.decode('utf-8')
print(reqs)

然后里用正则提取我们想要的部分就可以了！！！

懒笔头

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
3
评论
从零开始，手把手教你python爬取美足船袜网！

目标网址：http://mzsock.com美足船袜网你懂得！！这里先给大家介绍一个python自带的库：urllib.requesturllib.request --- 用于打开 URL 的可扩展库使用库之前要引用，urllib.request是标准库，安装就自带，所以直接引用就好了！官方文档：https://docs.python.org/zh-cn/3.7/library/...
复制链接

扫一扫