python 利器_Python的爬虫利器之urllib

urllib包

urllib是一个包含几个模块来处理请求的库:

- urllib.request发送http请求

- urllib.error处理请求过程中出现的异常

- urllib.parse解析url

- urllib.robotparser解析robots.txt文件

一般我们爬虫只需要常用的几个,下面只列出比较常用的函数

我们使用urllib模块,那就要引用模块

import urllib.request

urlreteieve:直接下载网页到本地

格式

urlreteieve(网址,本地的文件)

示例:

import urllib.request

urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")

print("下载完成")

urlcleanup:清楚系统缓存

import urllib.request

urllib.request.urlcleanup()

urllib.request.urlretrieve("https://read.douban.com/provider/all","F:/test/down.html")

print("下载完成")

info() :看相应情况的简介

import urllib.request

file=urllib.request.urlopen("https://read.douban.com/provider/all")

print(file.info())

getcode() 返回网页爬取状态码

geturl()  获取当前访问的网页的url

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值