python爬虫--urllib

最新推荐文章于 2024-05-04 13:59:48 发布

bh_xiaoxinba

最新推荐文章于 2024-05-04 13:59:48 发布

阅读量389

点赞数

分类专栏：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bh_xiaoxinba/article/details/75212992

版权

爬虫同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

urlib：URL handling modules；
urllib is a package that collects several modules for working with URLs:

urllib.request for opening and reading URLs
urllib.error containing the exceptions raised by urllib.request
urllib.parse for parsing URLs
urllib.robotparser for parsing robots.txt files

1、抓取网络页面

urllib.urlopen(url[, data[, proxies]]) :打开一个url的方法，返回一个文件对象，然后可以进行类似文件对象的操作

url: 表示远程数据的路径
data: 以post方式提交到url的数据
proxies:用于设置代理

urlopen返回对象提供方法：
- read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样
- info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息
- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到
- geturl()：返回请求的url

2、下载远程数据

urlretrieve方法将url定位到的html文件下载到你本地的硬盘中；
urllib.urlretrieve(url[, filename[, reporthook[, data]]])：
- filename指定保存到本地的路径（若未指定该，urllib生成一个临时文件保存数据）
- reporthook回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调
- data指post到服务器的数据

参考：https://docs.python.org/3/library/urllib.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。