本文信息主要来源于韦玮老师的《精通python网络爬虫》,仅作为个人学习笔记。
通过python库函数urllib.request去爬取网页时,遇到的异常主要时URL类和网页类的错误,python已提供URLError类和HTTPError类来处理。
【URLError】可能原因:
1、链接不上服务器;2、远程URL不存在;3、无网络
【HTTPError】可能原因,可通过状态码分类:
状态码 | 解释 |
200 | OK,一切正常 |
301 | Moved Permently 重定向到新的URL,永久性 |
302 | Found 重定向到临时的URL,非永久性 |
304 | Not Modified 请求的资源未更新 |
400 | Bad Request 非法请求 |
401 | Unauthorized 请求未经授权 | </