网络爬虫urllib.error.HTTPError: HTTP Error 403: Forbidden的问题方法

最新推荐文章于 2024-08-20 16:01:04 发布

波波子

最新推荐文章于 2024-08-20 16:01:04 发布

阅读量1.2w

点赞数 5

分类专栏：网络爬虫文章标签： python

本文链接：https://blog.csdn.net/junkmachine/article/details/108030558

版权

网络爬虫专栏收录该内容

3 篇文章 1 订阅

订阅专栏

今天学习《Python网络爬虫权威指南》第三章的时候，在写爬取wiki网站的代码时遇到了问题：urllib.error.HTTPError: HTTP Error 403: Forbidden。通过在网上查阅资料，问题出在了我们直接urlopen提出访问申请是非正常的申请，缺少网站需要的信息，会被拒接访问：

之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)所以可以尝试在请求中加入UserAgent的信息
（摘自51CT0博客博主sunday208）

通过网上的信息，我们需要在请求中添加UserAgent的信息，具体代码如下：

from urllib.request import urlopen,Request
from bs4 import BeautifulSoup

chaper_url = 'https://en.jinzhao.wiki/wiki/Kevin_Bacon'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36'}
req = Request(url=chaper_url, headers=headers) 
html = urlopen(req)
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find_all('a'):
    if 'href' in link.attrs:
        print(link.attrs['href'])