python爬虫--urllib

urlib:URL handling modules;
urllib is a package that collects several modules for working with URLs:

  1. urllib.request for opening and reading URLs
  2. urllib.error containing the exceptions raised by urllib.request
  3. urllib.parse for parsing URLs
  4. urllib.robotparser for parsing robots.txt files

1、抓取网络页面

urllib.urlopen(url[, data[, proxies]]) :打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作

  • url: 表示远程数据的路径
  • data: 以post方式提交到url的数据
  • proxies:用于设置代理

urlopen返回对象提供方法:
- read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样
- info():返回一个httplib.HTTPMessage对象,表示远程服务器返回的头信息
- getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到
- geturl():返回请求的url

2、下载远程数据

urlretrieve方法将url定位到的html文件下载到你本地的硬盘中;
urllib.urlretrieve(url[, filename[, reporthook[, data]]]):
- filename指定保存到本地的路径(若未指定该,urllib生成一个临时文件保存数据)
- reporthook回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调
- data指post到服务器的数据

参考:https://docs.python.org/3/library/urllib.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值