小白学爬虫——爬取网页的基本框架

最新推荐文章于 2024-05-02 21:47:38 发布

春风少年青衫薄

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量393

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/qq_43660588/article/details/102750679

版权

本文介绍了爬虫入门的基础知识，重点讲解了使用requests库抓取网页内容的基本步骤。通过实例展示了如何处理HTTP状态码，强调了在请求网页时，确保status_code为200的重要性。当URL不正确时，如缺少'http://'，会引发requests.HTTPError异常。

摘要由CSDN通过智能技术生成

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP协议层面出现的错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	用户访问url进行重定向，而超过最大重定向次数，产生的异常（一些复杂的链接）
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	发出URL请求到获得内容整个过程的超时异常