urllib库（四）

最新推荐文章于 2023-10-24 18:47:02 发布

原创最新推荐文章于 2023-10-24 18:47:02 发布 · 165 阅读

0 ·

CC 4.0 BY-SA版权

urllib库专栏收录该内容

5 篇文章

订阅专栏

异常与捕获

URLError产生的原因主要有:
**1.**没有连接网络
**2.**股务器连接失败
**3.**找不到指定的服务器

import urllib.request 
import urllib.error

# 构建请求对象
request=urllib.request.Request('http://www.adadfwec.com')

try:
	# 发送请求
	response = urllib request urlopen ( request , timeout = 3)
except urllib.error.URLError as error:
	print(error)

HttpError异常和捕获
每一个服务器的HTTP响应都有一个数字响应码,这些响应码有些表示无法处理请求內容,如果无法处理:
urlopen会抛出 HTTPError。 HTTPError是 URLError的子类,它的对象拥有一个整型的code属性,表示服务器
返回的错误代码。下面是一个例子,具体如下：

import urllib.request 
import urllib.error

# 构建请求对象
request=urllib.request.Request('http://www.baiud.com/net')

try:
	# 发送请求
	response = urllib request urlopen (request)
	print(response.read().decode())
except urllib.error.HTTPError as error:
	print(error)

结果如下：
HTTP Error 404: Not Found

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

|晴天|

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python常用模块之 urllib&&urllib3 【爬虫库】

孤寒者的博客

09-15

10万+

Python常用模块之 urllib&&urllib3 【爬虫库】

Python 爬虫入门（六）：urllib库的使用方法

blues_C的博客

08-04

2267

欢迎来到"Python 爬虫入门"系列的第六篇文章。今天我们来学习Python标准库中的urllib,这是一个用于处理URL的强大工具包。urllib是Python内置的HTTP请求库,不需要额外安装,就可以直接使用。它提供了一系列用于操作URL的函数和类,可以用来发送请求、处理响应、解析URL等。

参与评论您还未登录，请先登录后发表或查看评论

Python网络爬虫(四)——urllib

止步听风的博客

05-16

907

本篇文章主要介绍 urllib 库相关函数的使用。 urllib 能够模拟浏览器进行网络请求，也能够对服务器返回的数据进行保存。urllib 主要包括几个模块：模块描述 urllib.request 打开和读取 URL urllib.error 包含 urllib.request 引发的异常 urllib.parse 解析 URL urllib.robotparser 解析 robots.txt 文件常用函数在 urllib 库中，主要用到的函

python的urllib四大模块_Python常用的内建模块4:urllib

weixin_39928461的博客

02-10

219

urllib提供了一系列用于操作URL的功能Geturllib的request模块可以非常方便的抓取URL的内容, 也就是发送一个GET请求到制定的页面, 然后返回HTTP的响应:例如, 对豆瓣的一个URLhttps://api.douban.com/v2/book/2129650进行抓取, 并返回响应:from urllib import requestwith request.urlopen(...

urllib实战4--新闻爬虫（020）

lemon_wsm的博客

04-01

339

一：需求与思路需求：将新浪新闻的首页的所有新闻爬取到本地 http://news.sina.com.cn/ 思路：首先爬首页，通过正则表达式获取所有的新闻链接，然后依次爬取新闻，并存储到本地。二：实战运行程序查看爬取结果：三：综上代码：from urllib import requestimport redata=request.urlopen("http://...

Python 爬虫之urllib库，及urllib库的4个模块基本使用和了解

09-19

3919

Python urllib 库用于操作网页 URL，并对网页的内容进行抓取处理。Python3 的 urllib。需要用的就是每个模块的内置方法和函数。

python数据处理(四)urllib

baidu_41689104的博客

08-17

251

1、request解析网页 #用get方式获取网址 import urllib.request response=urllib.request.urlopen("http://www.baidu.com",timeout=1)#有些网站会直接发现是爬虫，不会让访问，一直在加载，所以要加上时间限制 print(response.read().decode('utf-8'))#读取内容，直接复制到.html文件里就是baidu的网页 #也就是说获取到的是网页源码 #获取post请求 import urllib

Python爬虫中urllib库的进阶学习

09-20

urllib库主要由四个子模块组成：urllib.request、urllib.error、urllib.parse和urllib.robotparser。urllib.request用于发送HTTP请求，urllib.error处理网络请求过程中可能出现的异常，urllib.parse负责URL的解析和...

学习爬虫相关的urllib,urllib3库（two day）

12-21

`urllib`库主要由四个模块组成： 1. **urllib.request**：这个模块是核心部分，用于构造和发起网络请求。你可以使用它来模拟浏览器的行为，例如添加请求头（Headers）、处理Cookie以及设置代理（Proxy）。`urlopen...

爬虫基础课1_urllib库

vaes1998的博客

11-11

464

urllib是Python自带的标准库中用于网络请求的库，无需安装,直接引用即可。通常用于爬虫开发、API(应用程序编程接口）数据获取和测。

【python】 urllib四大模块, urllib.request+ urllib.error+ urllib.parse + urllib.robotparse

Lee_Yu_Rui的博客

08-03

1971

urllib库 urllib库是Python内置的HTTP请求库，它包含4个模块： 1.urllib.request 负责请求 http请求模块，可以用来模拟发送请求。就好比在浏览器中输入网址然后回车一样，只需要给库方法传入URL以及额外的参数，就可以模拟实现这个过程 2.urllib.error 异常处理模块如果出现请求错误，我们可以捕捉这些异常，然后进行重试或其他操作，保证程序不会意外终止 3. urllib.parse 负责解析个工具模块，提供了许多URL处理方法，比如拆分、解析、.

python的urllib四大模块_pythonの鉴黄之路（四）——urllib模块批量下载

weixin_39985279的博客

12-03

161

好了，现在鉴黄的demo可以跑通了，就差大量的数据了(就是黄图)这可难倒了纯洁的宝宝。本宝宝表示找了好几天都找不到一张黄图后来问了一些老司机，得到了一些资源丰富的网址不过本宝宝还是不好意思打开~就只能写一个小爬虫批量下载了-.-其实就是用python的urllib完成打开、下载等操作，直接简单的匹配该后缀jpg的就好了#coding=utf-8importurllibimportredefg...

python——urllib模块

08-28

2万+

1. 简述这里说的urllib模块，是urllib*模块，包括了urllib、urllib2和urllib3等几个。urllib和urllib2都是属于python的基础库，类似于java中官方jdk提供的库，在http://docs.python.org/2/library/internet.html可以看到相关介绍，他们都属于Internet协议和相关支撑的模块部分；除了这两个，其实还有第

网络爬虫——urllib（4）文末好书推荐

冷兮雪的博客

10-24

8292

❤️❤️❤️Python网络爬虫_热爱编程的林兮的博客-CSDN博客上篇我们讲解了百度详细翻译这个案例，这篇也是一个ajax get请求的一个案例。

Python3中urllib使用介绍

最新发布

03-19

<think>好的，我现在需要向用户介绍urllib库。首先，我要回忆一下urllib的基本信息，确保自己没有记错。urllib是Python的标准库，用于处理URL相关的操作，比如发送HTTP请求、处理响应等。记得它有几个模块，比如urllib.request、urllib.parse等等。接下来，我得组织一下结构，确保回答清晰。用户可能需要知道urllib的组成部分和每个模块的功能，最好分点说明。比如，urllib.request用于打开和读取URL，urllib.parse用于解析URL，urllib.error处理异常，urllib.robotparser处理robots.txt文件。这些模块需要一一解释，每个模块的作用和常用方法。然后，用户可能想知道基本用法，比如如何发送GET请求，如何处理POST请求，或者如何设置请求头。这时候需要给出一些简单的代码示例，但要注意用中文说明，并且按照系统级指令中的格式要求，数学表达式用$...$，但代码应该用代码块吗？不过用户这里可能只需要文字描述，避免使用代码块，而是用中文步骤说明。不过可能需要提到相关函数，比如urlopen()、Request对象等。另外，要注意提到异常处理，比如urllib.error中的HTTPError和URLError，说明在请求过程中可能会遇到的错误以及如何处理。这部分对用户来说很重要，因为实际使用中经常会遇到404或500错误。还有，urllib相比第三方库如requests有什么优缺点？虽然用户没直接问，但可能隐含这个需求。可以简要提到urllib是标准库，无需安装，但API不够友好，而requests更简洁，但需要额外安装。这样用户可以根据需求选择。最后，给出一个综合示例，演示如何发送带参数的GET请求，处理响应和异常。这样用户能有一个整体的认识。同时提醒用户注意网络请求的基本注意事项，比如添加请求头、处理编码问题等。检查一下有没有遗漏的部分，比如urllib.parse中的urlencode函数，用于生成查询字符串，这在构造带参数的URL时非常有用。需要提到这个函数的用法，比如将字典转换为URL参数。可能还需要提到Python 3中urllib的结构，因为Python 2中urllib和urllib2是分开的，但在Python 3中已经整合成urllib。这点需要说明清楚，避免用户混淆。总结一下，回答的结构应该是：概述urllib库，分模块介绍，基本用法（GET/POST请求），异常处理，解析URL，以及一个综合示例。同时比较与第三方库的差异，帮助用户理解使用场景。确保每个部分简洁明了，步骤清晰，符合用户可见层的要求。</think>urllib 是 Python 的标准库，用于处理与 URL 相关的网络操作。它提供了一系列模块，帮助开发者完成 HTTP 请求、URL 解析、异常处理等任务。以下是分步介绍： --- ### 一、urllib 的组成模块 1. **`urllib.request`** 用于打开和读取 URL，支持设置请求头、表单提交等。 - 核心函数：`urlopen()` ```python from urllib.request import urlopen response = urlopen('https://www.example.com') content = response.read() # 读取响应内容 ``` 2. **`urllib.parse`** 用于解析和构造 URL。 - `urlparse()`: 拆分 URL 的各个部分（协议、域名、路径等）。 - `urlencode()`: 将字典转换为 URL 查询字符串。 ```python from urllib.parse import urlencode params = {'key1': 'value1', 'key2': 'value2'} query_string = urlencode(params) # 输出: key1=value1&key2=value2 ``` 3. **`urllib.error`** 处理请求过程中的异常。 - `HTTPError`: HTTP 错误（如 404、500）。 - `URLError`: URL 解析或连接失败。 4. **`urllib.robotparser`** 解析网站的 `robots.txt` 文件，判断是否允许爬取。 --- ### 二、基本用法示例 #### 1. 发送 GET 请求 ```python from urllib.request import urlopen # 发送请求并读取响应 response = urlopen('https://httpbin.org/get') print(response.status) # 状态码（如 200） print(response.read().decode('utf-8')) # 解码内容 ``` #### 2. 发送 POST 请求 ```python from urllib.request import urlopen, Request from urllib.parse import urlencode # 构造表单数据 data = urlencode({'name': 'Alice', 'age': 25}).encode('utf-8') # 创建 Request 对象并设置请求方法 request = Request('https://httpbin.org/post', data=data, method='POST') # 发送请求 response = urlopen(request) print(response.read().decode()) ``` #### 3. 设置请求头 ```python headers = {'User-Agent': 'Mozilla/5.0'} request = Request('https://httpbin.org/headers', headers=headers) response = urlopen(request) ``` --- ### 三、异常处理 ```python from urllib.request import urlopen from urllib.error import HTTPError, URLError try: response = urlopen('https://example.com/404-page') except HTTPError as e: print(f"HTTP错误: {e.code} - {e.reason}") except URLError as e: print(f"URL错误: {e.reason}") ``` --- ### 四、urllib 的优缺点 - **优点** - 无需安装，Python 内置。 - 功能全面，覆盖基本网络操作。 - **缺点** - API 设计较底层，使用不如 `requests` 库简洁。 - 需要手动处理编码、Cookie 等细节。 --- ### 五、完整示例（带参数和异常处理） ```python from urllib.request import Request, urlopen from urllib.parse import urlencode from urllib.error import HTTPError url = 'https://httpbin.org/get' params = {'page': 1, 'limit': 10} query = urlencode(params) full_url = f"{url}?{query}" try: request = Request(full_url, headers={'User-Agent': 'Test'}) with urlopen(request) as response: print(response.read().decode('utf-8')) except HTTPError as e: print(f"请求失败: {e.code}") ``` --- ### 六、适用场景 - 快速实现简单的 HTTP 请求。 - 项目限制不能安装第三方库（如 `requests`）。 - 需要精细控制请求过程（如自定义协议处理器）。如果需要更简洁的 API 或高级功能（如会话保持、SSL 验证），建议使用第三方库 `requests`。