python爬虫入门之urllib库的基本使用(附实战训练爬取内容)

showswoller

已于 2022-10-07 22:02:05 修改

阅读量695

点赞数 8

分类专栏： python爬虫文章标签： python 爬虫百度搜索引擎 httpx

于 2022-10-07 21:50:05 首次发布

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/127199415

版权

python爬虫专栏收录该内容

2 篇文章 2 订阅

订阅专栏

完整代码点赞关注收藏后私信博主要

urllib库是python内置的一个HTTP请求库由四个模块组成

1:request模块打开和浏览URL中的内容

2：error模块包含urllib.request发生的错误或异常

3：parse模块解析URL

4：robotparser模块解析robots.txt文件

1.1：发送请求

下面是一个简单的模拟访问百度首页的例子代码如下

import  urllib.request
import  ssl
ssl._create_default_https_context=ssl._create_unverified_context
resp=urllib.request.urlopen("http://www.baidu.com")
print(resp)
print(resp.read())
print(resp.geturl())
print(resp.msg)
print(resp.status)
print(resp.version)
print(resp.reason)
print(resp.debuglevel)
print(resp.getheaders()[0:2])

效果如下

1.2：抓取二进制文件

直接把二进制文件写入文件即可代码示例如下

import  urllib.request
import  ssl
pic_url="https://www.baidu.com/img/bd_logo1.png"
pic_resp=urllib.request.urlopen(pic_url)
pic=pic_resp.read()
with open("bd_logo.png","wb")as f:
    f.write(pic)

效果如下

1.3：修改请求头

有一些站点为了避免有人使用爬虫恶意抓取信息会进行一些简单的反爬虫操作，比如通过识别请求头里的User-Agent来检查访问来源是否为正常的访问途径还可以检查Host请求头等等我们可以修改请求头来模拟正常的访问 Request中有个headers参数可通过如下两种方法进行设置

(1):把请求头都塞到字典里在实例化Request对象的时候传入

(2):通过Request对象的add_header()方法一个个添加

部分代码如下

import  urllib.request

novel_url="http://www.biqukan.com/1_1496/"
headers={'User-Agent':'Mozilla/5.0(X11;Linux x86_64)''AppleWebKit/537.36(KHTML,like Gecko)''Chrome/63.0.3239.84 Safari/537.36',
       
novel_req=urllib.request.Request(novel_url,headers=headers)
novel_resp=urllib.request.urlopen(novel_req)
print(novel_resp.read().decode('GBK'))

1.4：设置连接超时

urlopen()函数中有一个可选参数timeout 单位为秒作用是如果请求超出了这个事件还没有得到相应就会抛出异常

1.5：延迟提交数据

通常情况下服务器都会对请求的客户端IP进行记录如果在一定时间内访问次数达到了一个阈值，服务器会认为该IP地址就是爬虫会弹出验证码验证或者直接对IP进行封禁

为了避免IP被封一个最简单的方法就是延迟每次发起请求的时间直接用time模块的sleep休眠即可

1.6：parse模块

urlparse函数将URL拆分成六大组件

urlsplit函数和urlparse函数类似只是不会单独拆分params部分

代码如下

import urllib.parse
urp= urllib.parse.urlparse("https://docs.python.org/3/search.html?q=parse&check_keywords=yes&area=default")
print("urlparse执行结果",urp)
print("urp.scheme",urp.scheme)
print("urp.netloc",urp.netloc)
urp1=urllib.parse.urlsplit("https://docs.python.org/3/search.html?q=parse&check_keywords=yes&area=default")
print("urlsplit执行结果",urp1)

拼接URL

urlunparse函数长度为7

urlunsplit函数长度为6

import urllib.parse
url=urllib.parse.urlunsplit(['https','docs.python.org','/3/search.html','q=parse&check_keywords=yes&area=default',","])
print("urlunsplit函数",url)
url=urllib.parse.urljoin('https://docs.python.org','/3/search.html')
url1=urllib.parse.urljoin(url,'?q=parse&check_keywords=yes&area=default')
print("urljoin函数",url1)

2：error异常处理模块

error模块定义有request模块引发的异常类主要用到两个类 URLError和HTTPError

URLError类具体reason属性返回错误原因发生URLError异常的原因一般有以下几种

1：远程地址不存在

2：触发了HTTPError异常

3：远程服务器不存在

4：远程服务器连接不上

HTTPError类专门处理HTTP和HTTPS请求错误具体有三个属性 code请求返回的状态码

headers请求返回的响应头信息 reason错误原因 HTTPError类并不能处理父类支持的异常处理建议对两种异常分开捕获代码如下

from urllib import  request,error

try:
    response=request.urlopen('http://www.baidu.com')
except error.HTTPError as e:
    print("HTTPerror异常")
    print("reason"+str(e.reason),'code'+str(e.code),'headers'+str(e.headers),sep='\n')
except error.URLError as e:

    print("url异常")
    print('reason'+str(e.reason))
else:
    print('request successfullu')

3：robotparser模块

Robots协议又称爬虫协议网站可以通过该协议告知搜索引擎站点内的哪些网页可以抓取哪些不可以抓取当搜索爬虫访问某个站点时会先检查是否有这个文件如果有的话会根据协议规定范围来爬取如果没有找到则访问所有页面

Robots只是一个道德规范并不是强制命令所以防君子不防小人代码如下

from urllib import  robotparser
rp=robotparser.RobotFileParser()
rp.set_url('http://www.taobao.com/robots.txt')
rp.read()
url='https://www.douban.com'
user_agent='Baiduspider'
op_info=rp.can_fetch(user_agent,url)
print("Elsespider代理情况",op_info)
bdp_info=rp.can_fetch(user_agent,url)
print('baiduspider代理情况',bdp_info)
user_agent='Elsespider'

完整代码点赞关注收藏后私信博主要