urllib

四大类

说明
urllib.request提供打开URLs(大部分是HTTP)的函数和类,如:基本的身份验证,重定向和cookie等。
urllib.error定义了ulrlib.request引发的异常类。
urllib.parseurl地址解析。
urllib.robotparse根据robots.txt判断哪些数据可以爬取。

urllib.request

urllib.request.open()

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url:网址
data:发给服务器的数据
返回:一个类文件对象

参数默认值含义
url网址
dataNone一个类文件对象
cafileNone
capathNone
cadefaultFalse
contextNone

urllib.request.urlretrieve

urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
将url(远程或本地)的文件保存在filename中。

参数默认值含义
url本地或者远程地址
filenameNone要保存的文件名
reporthookNone当建立连接或者是获取到一块数据时被调用,有三个参数:接收的数据块,一个数据块的大小,文件的总字节数。
dataNone
返回(filename,headers):filename:本地路径,headers:调用urlopen()返回的信息。

urllib.error

urllib.parse

urllib.robotparse

当一个搜索蜘蛛访问一个站点时,它首先会检查下这个站点根目录下是否存在robots.txt文件,如果存在,搜索蜘蛛会根据其中定义的爬取范围来爬取。如果没有找到这个文件,那么搜索蜘蛛便会访问所有可直接访问的页面。具体参考:https://www.jianshu.com/p/317b08ccaeb0

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值