4、利用Request和Beautiful Soup抓取指定URL内容

本文介绍了如何使用Python3.5中的Request组件抓取网页内容。通过简单的四行代码示例,展示了如何获取并打印指定URL的源代码,解释了HTTP的请求-响应机制,并提到了Response对象的raise_for_status()方法处理错误响应。
摘要由CSDN通过智能技术生成

  所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。

  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。

  在Python3.5中,我们使用Request这个组件来抓取网页。

  Request是Python的一个获取URLs(Uniform Resource Locators)的组件。

  它以get函数的形式提供了一个非常简单的接口。

  最简单的Request的应用代码只需要四行。

  我们新建一个文件test.py来感受一下Request的作用:

import requests
from bs4 import BeautifulSoup

#coding:utf-8

url = 'http://www.baidu.com'
try:
    response = requests.get(url)
#URLError
#通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。
except:
    data = {
        'url':url,
        'error_type'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值