Python爬虫库urllib使用详解_python使用 urllib

from urllib import requestfrom urllib import error
if name == “main”: #网站服务器上不存在资源 url = “http://www.baidu.com/no.html” req = request.Request(url) try: response = request.urlopen(req) html = response.read().decode(‘utf-8’) print(html) except error.HTTPError as e: print(e.code)



返回结果:



* 



404



code



一个 HTTP 状态码,具体定义见 RFC 2616。这个数字的值对应于存放在


http.server.BaseHTTPRequestHandler.responses 代码字典中的某个值。



reason



这通常是一个解释本次错误原因的字符串。



headers



导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。



**3. URLError和HTTPError混合使用**



注意:由于HTTPError是URLError的子类,所以捕获的时候HTTPError要放在URLError的上面。



示例:



* * * * * * * * * * * * * * *



from urllib import requestfrom urllib import error
if name == “main”: #网站服务器上不存在资源 url = “http://www.baidu.com/no.html” req = request.Request(url) try: response = request.urlopen(req) # html = response.read().decode(‘utf-8’) except error.HTTPError as e: print(e.code) except error.URLError as e: print(e.code)



如果不用上面的方法,可以直接用判断的形式。



* * * * * * * * * * * * * * * * * *



from urllib import requestfrom urllib import error
if name == “main”: #网站服务器上不存在资源 url = “http://www.baidu.com/no.html” req = request.Request(url) try: response = request.urlopen(req) # html = response.read().decode(‘utf-8’) except error.URLError as e: if hasattr(e, ‘code’): print(“HTTPError”) print(e.code) elif hasattr(e, ‘reason’): print(“URLError”) print(e.reason)



执行结果:



* *



HTTPError404



**四、urllib.parse模块**



模块定义的函数可分为两个主要门类: URL 解析和 URL 转码。



**4.1 URL 解析**



**4.1.1 urlparse()**



urllib.parse 用于解析 URL,格式如下:



* 



urllib.parse.urlparse(urlstring, scheme=‘’, allow_fragments=True)



urlstring 为 字符串的 url 地址,scheme 为协议类型。



allow\_fragments 参数为 false,则无法识别片段标识符。相反,它们被解析为路径,参数或查询组件的一部分,并 fragment 在返回值中设置为空字符串。



标准链接格式为:



* 



scheme://netloc/path;params?query#fragment



对象中包含了六个元素,分别为:协议(scheme)、域名(netloc)、路径(path)、路径参数(params)、查询参数(query)、片段(fragment)。



示例:



* * * * * * * * * * *



from urllib.parse import urlparse
o = urlparse(“https://docs.python.org/zh-cn/3/library/urllib.parse.html#module-urllib.parse”)
print(‘scheme :’, o.scheme)print(‘netloc :’, o.netloc)print(‘path :’, o.path)print(‘params :’, o.params)print(‘query :’, o.query)print(‘fragment:’, o.fragment)print(‘hostname:’, o.hostname)



执行结果:



scheme  : https                                                                                                                                                                                          netloc : docs.python.org path : /zh-cn/3/library/urllib.parse.html params : query : fragment: module-urllib.parse hostname: docs.python.org



以上还可以通过索引获取,如通过​​​​​​​



print(o[0])…print(o[5])



**4.1.2 urlunparse()**



urlunparse()可以实现URL的构造。(构造URL)



urlunparse()接收一个是一个长度为6的可迭代对象,将URL的多个部分组合为一个URL。若可迭代对象长度不等于6,则抛出异常。



示例:​​​​​​​



from urllib.parse import urlunparseurl_compos = [‘http’,‘www.baidu.com’,‘index.html’,‘user= test’,‘a=6’,‘comment’]print(urlunparse(url_compos))



结果:



* 



http://www.baidu.com/index.html;user= test?a=6#comment



**4.1.3 urlsplit()**



urlsplit() 函数也能对 URL 进行拆分,所不同的是, urlsplit() 并不会把 路径参数(params) 从 路径(path) 中分离出来。



当 URL 中路径部分包含多个参数时,使用 urlparse() 解析是有问题的,这时可以使用 urlsplit() 来解析.



**4.1.4 urlsplit()**



urlunsplit()与 urlunparse()类似,(构造URL),传入对象必须是可迭代对象,且长度必须是5。



示例:



* * * *



from urllib.parse import urlunspliturl_compos = [‘http’,‘www.baidu.com’,‘index.html’,‘user= test’,‘a = 2’]print(urlunsplit(url_compos))urlunsplit()



结果:



* 



http://www.baidu.com/index.html?user= test#a = 2



**4.1.5 urljoin()**



同样可以构造URL。



传递一个基础链接,根据基础链接可以将某一个不完整的链接拼接为一个完整链接.


注:连接两个参数的url, 将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径,则以第二个为主。



**4.2 URL 转码**



python中提供urllib.parse模块用来编码和解码,分别是urlencode()与unquote()。



**4.2.1 编码quote(string)**



URL 转码函数的功能是接收程序数据并通过对特殊字符进行转码并正确编码非 ASCII 文本来将其转为可以安全地用作 URL 组成部分的形式。它们还支持逆转此操作以便从作为 URL 组成部分的内容中重建原始数据,如果上述的 URL 解析函数还未覆盖此功能的话



语法:



* 



urllib.parse.quote(string, safe=‘/’, encoding=None, errors=None)



使用 %xx 转义符替换 string 中的特殊字符。字母、数字和 '\_.-~' 等字符一定不会被转码。在默认情况下,此函数只对 URL 的路径部分进行转码。可选的 safe 形参额外指定不应被转码的 ASCII 字符 --- 其默认值为 '/'。



string 可以是 str 或 bytes 对象。



示例:



​​​​​​​



from urllib import parse
url = "http://www.baidu.com/s?wd={}"words = “爬虫”
#quote()只能对字符串进行编码query_string = parse.quote(words)url = url.format(query_string)print(url)



执行结果:



* 



http://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB



**4.2.2 编码urlencode()**



quote()只能对字符串编码,而urlencode()可以对查询字符串进行编码。



* * * * * * * * * * *



# 导入parse模块from urllib import parse
#调用parse模块的urlencode()进行编码query_string = {‘wd’:‘爬虫’}result = parse.urlencode(query_string)

format函数格式化字符串,进行url拼接url = ‘http://www.baidu.com/s?{}’.format(result)print(url)



结果:



* 



http://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB



**4.2.3 解码unquote(string)**



解码就是对编码后的url进行还原。



示例:



* * * * *



from urllib import parsestring = '%E7%88%AC%E8%99%AB’result = parse.unquote(string)print(result)



执行结果:



* 



爬虫



**五、urllib.robotparser模块**



(在网络爬虫中基本不会用到,使用较少,仅作了解)



urllib.robotparser 用于解析 robots.txt 文件。



robots.txt(统一小写)是一种存放于网站根目录下的 robots 协议,它通常用于告诉搜索引擎对网站的抓取规则。



Robots协议也称作爬虫协议,机器人协议,网络爬虫排除协议,用来告诉爬虫哪些页面是可以爬取的,哪些页面是不可爬取的。它通常是一个robots.txt的文本文件,一般放在网站的根目录上。


文末有福利领取哦~
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

👉**一、Python所有方向的学习路线**

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。![img](https://img-blog.csdnimg.cn/c67c0f87cf9343879a1278dfb067f802.png)

👉**二、Python必备开发工具**

![img](https://img-blog.csdnimg.cn/757ca3f717df4825b7d90a11cad93bc7.png)  
👉**三、Python视频合集**

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。  
![img](https://img-blog.csdnimg.cn/31066dd7f1d245159f21623d9efafa68.png)

👉 **四、实战案例**

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。**(文末领读者福利)**  
![img](https://img-blog.csdnimg.cn/e78afb3dcb8e4da3bae5b6ffb9c07ec7.png)

👉**五、Python练习题**

检查学习结果。  
![img](https://img-blog.csdnimg.cn/280da06969e54cf180f4904270636b8e.png)

👉**六、面试资料**

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。  
![img](https://img-blog.csdnimg.cn/a9d7c35e6919437a988883d84dcc5e58.png)

![img](https://img-blog.csdnimg.cn/5db8141418d544d3a8e9da4805b1a3f9.png)

👉因篇幅有限,仅展示部分资料,这份完整版的Python全套学习资料已经上传




**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友,可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
  • 15
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫教程urllib主要是介绍了Python爬虫技术中的urllib的基础用法。该教程详细讲解了urllib的各种功能和方法,包括发送请求、处理响应、设置请求头、处理异常等。这个教程对于想要学习和使用Python进行网络爬虫的人来说具有很大的参考价值。 同时,该教程也提到了一些常见的问题和解决方法,例如模拟超时的处理方法。在网络爬虫中,有时候我们长时间无法访问一个页面,可能是因为网速有限或者被发现我们是一个爬虫。针对这种情况,可以使用timeout参数来设置超时时间,如果超过了设定的时间仍无法获取响应,则会抛出URLError异常,我们可以在异常处理中对超时进行相应的处理。 总的来说,Python爬虫教程urllib是一个很好的学习资源,适合想要入门或深入学习Python爬虫技术的人使用。它提供了详细的教程和实例,可以让你快速上手和掌握使用urllib进行网络爬虫的基本知识和技巧。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python爬虫urllib基础用法教程](https://download.csdn.net/download/weixin_38656741/12858843)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Python爬虫 —— urllib使用(get/post请求+模拟超时/浏览器)](https://blog.csdn.net/qq_50587771/article/details/123840479)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [python爬虫urllib3的使用示例](https://download.csdn.net/download/weixin_38681147/12867742)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值