Python标准库之数据抓取模块urllib

最新推荐文章于 2024-04-26 15:27:28 发布

chenirene510

最新推荐文章于 2024-04-26 15:27:28 发布

阅读量163

点赞数

分类专栏： Python学习笔记文章标签： python http

本文链接：https://blog.csdn.net/chenirene510/article/details/111318850

版权

Python学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

urllib是Python内置的HTTP请求库，它包含四个子模块：

request模块，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
error模块即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
parse模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。
robotparser模块，主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。
request模块

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理authenticaton（授权验证），redirections（重定向)，cookies（浏览器Cookies）以及其它内容的功能实现一个简单的抓取网页功能，以python官网为例。

import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))  # 将网页内容打印输出

运行结果如下：

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">
... ...