从零开始,手把手教你python爬取美足船袜网!

目标网址:http://mzsock.com 美足船袜网
你懂得!!

这里先给大家介绍一个python自带的库 :urllib.request
urllib.request --- 用于打开 URL 的可扩展库

使用库之前要引用,urllib.request是标准库,安装就自带,所以直接引用就好了!

官方文档:https://docs.python.org/zh-cn/3.7/library/urllib.request.html
大家可以自行查看和了解,也可以百度搜索了解它的用法!
引用方法

from urllib import request

你可以理解为从urllib包里使用request

这里为大家介绍 我们需要使用到urllib.request 库的用法,也是比较常用的用法:
1.urlopen
打开指定的网页

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数,可以是一个string,或者一个Request对象。 data一定是bytes对象,传递给服务器的数据,或者为None。目前只有HTTP requests会使用data,提供data时会是一个post请求,如若没有data,那就是get请求。data在使用前需要使用urllib.parse.urlencode()函数转换成流数据。

具体使用:
resp=request.urlopen('目标网址')
比如:打开百度

 

from urllib import request
 
resp=request.urlopen('http://www.baidu.com')
print(type(resp))
#可以看出,urlopen返回的是一个HTTPResponse对象

这里我们返回的是一个HTTPResponse对象,那么怎么变成我们想要的源码文本呢?
很简单,第二个用法,直接后面加.read()

2.req.read()
把我们想要的内容读取出来

response = request.urlopen(url)
req=response.read()

3.最后一个字符转换,你经过上面的步骤,你会发现返回的是乱码,其实返回的是bytes对象,这里我们需要转码我们熟悉的编码格式,一般是"utf-8",
后面直接加.decode("utf-8")
由于urlopen无法判断数据的encoding,所以返回的是bytes对象。一般会对返回的数据进行decode。

response = request.urlopen(url)
req=response.read()
req=req.decode('utf-8')

现在我们可以尝试打开我们想要爬取的目标网址了!

 

from urllib import request
 
url = "http://mzsock.com"
response = request.urlopen(url)
print(response)
req=response.read()
print(req)
reqs=req.decode('utf-8')
print(reqs)

 

然后里用正则 提取我们想要的部分就可以了!!!

 

 

 

 

 

 

 

 

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值