python爬虫工程师 成长之路三 URLlib库和URLError处理

本文详细介绍了Python的URLlib库在爬虫中的应用,包括如何使用URLlib爬取网页、设置超时、处理HTTP协议请求、使用代理服务器、处理URLError异常。同时,还讲解了浏览器伪装技巧,如获取和设置Headers,以应对网站的反爬虫策略。
摘要由CSDN通过智能技术生成

URLlib库概述

URLlib是python提供的一个用于操作URL的模块,常用于爬取网页,python3.x中将python2.x中的URLlib和URLlib2合并成为新的URLlib。

使用URLlib爬取网页

  • 导入URLlib.request

    import urllib.request
    
  • 使用urllib.request.urlopen打开需要爬取的网站并用web接收一下

    web=urllib.request.urlopen('http://www.baidu.com')
    
  • 读取网页内容

    data=web.read() #读取网页的全部内容
    dataline=web.readline() #读取网页的一行内容
    
  • 查看网页内容
    在这里插入图片描述

  • 将网页存到本地
    urlllib.request.urlretrieve(url,filename)

    • url:网页的网址
    • filename:存放文件的地址与名称
    urllib.request.urlretrieve('http://www.baidu.com','./baidu.	html')
    

    在这里插入图片描述
    打开文件
    在这里插入图片描述
    全过程

    import urllib.request
    web=urllib.request.urlopen('http://www.baidu.com')
    data=web.read() #读取网页的全部内容
    dataline=web.readline() #读取网页的一行内容
    print(dataline)
    print('-------------------')
    print(data)
    urllib.request.urlretrieve('http://www.baidu.com','./baidu.html')
    

    在这里插入图片描述

urllib常用方法

  • urllib.request.urlcleanup()
    清除urlretrieve()执行时产生的缓存
    urllib.request.urlcleanup()
    
  • 网页.info()
    返回当前环境有关的信息
    因为之前将爬取的网页赋值给了web,所以直接使用web.info()即可
    在这里插入图片描述
  • 网页.getcode()
    返回当前爬取网页的状态码,200为正确,其他均为不正确
    在这里插入图片描述
  • 网页.geturl()
    返回当前爬取的URL地址
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值