目录
3.2 使用 urllib 和 requests 库使用代理
1 urlib 库
urllib是 Python 内置的标准库,用于处理URL、发送HTTP请求和处理网络数据。它包含多个模块,如urllib.request用于发送请求,urllib.parse用于解析URL,urllib.error用于处理异常等。
urllib.request:用于发送 HTTP 请求和获取响应。urllib.parse:用于解析 URL,拆分和合并 URL 的各个部分。urllib.error:处理异常,如连接错误、HTTP 错误等。
常用语法:
- 发送GET请求:
import urllib.request
url = "https://www.example.com"
response = urllib.request

本文介绍了Python的urllib库用于网络请求,BeautifulSoup库解析HTML,以及如何使用代理进行网络爬虫。内容包括urllib的基本用法、发送GET/POST请求、自定义处理器和Opener,以及处理HTTP错误。同时讲解了Beautiful Soup库的使用,代理的种类(HTTP、HTTPS、SOCKS5)以及如何在urllib和requests中使用代理。最后,给出了实战例子,展示如何提取和分析网页中的视频信息。
订阅专栏 解锁全文
1850

被折叠的 条评论
为什么被折叠?



