4、利用Request和Beautiful Soup抓取指定URL内容

最新推荐文章于 2023-05-20 15:32:51 发布

「已注销」

最新推荐文章于 2023-05-20 15:32:51 发布

阅读量2.6k

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/jueyings/article/details/60142228

版权

本文介绍了如何使用Python3.5中的Request组件抓取网页内容。通过简单的四行代码示例，展示了如何获取并打印指定URL的源代码，解释了HTTP的请求-响应机制，并提到了Response对象的raise_for_status()方法处理错误响应。

摘要由CSDN通过智能技术生成

　　所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。

　　类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。

　　在Python3.5中，我们使用Request这个组件来抓取网页。

　　Request是Python的一个获取URLs(Uniform Resource Locators)的组件。

　　它以get函数的形式提供了一个非常简单的接口。

　　最简单的Request的应用代码只需要四行。

　　我们新建一个文件test.py来感受一下Request的作用：

import requests
from bs4 import BeautifulSoup

#coding:utf-8

url = 'http://www.baidu.com'
try:
    response = requests.get(url)
#URLError
#通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。
except:
    data = {
        'url':url,
        'error_type'