网络爬虫错误

最新推荐文章于 2023-03-10 18:14:51 发布

bamboogz99

最新推荐文章于 2023-03-10 18:14:51 发布

阅读量267

点赞数

分类专栏： python/datamining 文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/bennyfun79/article/details/126180763

版权

python/datamining 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在使用urllib中的request方法时，系统返回HTTPerror，但是没有给出错误代码

重新写了一段代码，用来显示具体错误：

# 异常处理
from urllib import request,error
try:
    response = urllib.request.urlopen('https://movie.douban.com/top250')
except error.HTTPError as e:
    print(e.reason,e.code,e.headers,sep='\n')  # 使用httperror判断

这里访问的是豆瓣，结果返回错误418，查了下是反爬虫的。

处理办法：不是一次请求整个网页，而是加入header选项，只读取头部，如下：

第二个问题是，如何读取多页的信息，此时通过观察，得知douban的页面链接中包含了页码信息，用for循环配合页码即可：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bamboogz99

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫错误

本文记录了使用python爬虫访问豆瓣页面过程中碰到的问题！
复制链接

扫一扫

专栏目录

Python爬虫网络请求（二）——错误解析

ShengXIABai的博客

02-10

312

网络请求（二）错误解析异常处理主要用到两大类： urllib.error.URLError：用于捕获urllib.request产生的异常，使用reason属性返回错误原因 urllib.error.HTTPError：用于处理HTTP与HTTPS请求的错误，它有三个属性： code：请求返回的状态码 reason：请求返回错误的原因 headers：请求返回的响应头信息请求时异常 import urllib.request import urllib.error url='http://www

写爬虫过程中的常见问题与错误

Stalla_s_bf的博客

10-27

1405

爬虫常见错误

参与评论您还未登录，请先登录后发表或查看评论

python爬虫网络出错怎么办_Python爬虫异常处理

weixin_39858124的博客

11-27

460

100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102：继续处理由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。200：请求成功处理方式：获得响应的内容，...

python requests 报错整理

热门推荐

tianbiancai1的博客

08-18

1万+

@【python爬虫】—爬虫报错：403访问太过频繁，禁止访问前言使用requests包建立访问时，正常的访问状态会返回状态代码200，但是在爬一些网站时，经常会返回403（众所周知的404代表的是网站disappear了。而403代表我们当前的IP被forbidden了）。这是因为在短时间内直接使用Get获取大量数据，会被服务器认为在对它进行攻击，所以拒绝我们的请求，自动把电脑IP封了。因此，这里介绍两种解决办法。方案一、请求页面的是添加headers 我们平时使用浏览器下载的图片或者是文

网络爬虫遇见的报错及处理方法

Dove's Blog

11-30

919

0.环境介绍 1. pip install psutil出错-You are using pip version 10.0.1, however version 18.0 is available. 2. 使用BeautifulSoup的时候提示以下错误：bs4.FeatureNotFound: Couldn't find a tree builder with the features yo...

常见爬取网页报错总结

fanyao1983的博客

05-01

1789

1.爬取网页报错提示状态码404，可是在浏览器里可以打开网页这种情况是服务器同时返回200与404的状态码，抓包可以看到有404与200。浏览器访问时，有200不会影响访问，而爬虫程序获取该url的回执状态码404与200，遇到有404，则抛出了HTTPError404:NotFound 网上解答：抓包将状态码200的cookie值贴到代码的headers里，然后urlopen(re...

爬虫常见错误及解决

_compiling的博客

07-06

2305

urllib2.HTTPError: HTTP Error 403: Forbidden 该错误是由于网站禁止爬虫，可以在请求加上相关头信息，伪装成浏览器访问，如伪装浏览器头：headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firef

爬虫在做网络请求时出现报错的一点总结

s_kangkang_A的博客

09-04

649

背景：对某网站的某个https接口发起大量请求 SSLError("bad handshake: Error([('rsa routines', 'int_rsa_verify' 如上报错，添加verify=False，可解决。当请求量次数少，请求频率低时，该方法基本可以解决。但当请求次数多，请求频率高时，依旧会报错。 Caused by SSLError(SSLError("bad handshake: SysCallError(10054, 'WSAECONNRES 我的解决方法是.

python爬虫网络出错怎么办_Python爬虫常见问题

weixin_39702559的博客

11-27

540

第一个问题：JS加密如何突破(1) 熟练掌握Chrome的开发者工具的各个功能，Elements， Network，Source(2) 认真观察，善于思考。Network查看加载流程，找可疑的xhr请求，设置xhr断点，通过Call Stack 回溯js执行过程，边回溯边查看上下文代码。能读懂js，知道js的相关知识，比如js里面的window变量。(3) 以上是通过debug js找到js加密解...

爬虫系列2常见网络错误

runnoob_1115的博客

11-12

2936

一些常见的状态码为：200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务不可用详细分解：1xx（临时响应）表示临时响应并需要请求者继续执行操作的状态代码。代码说明 100 （继续）请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分，正在等待其余部分。 101 （切换协议）请求者已要求服务器切换协议，服务器已确认并准备切换。2xx （成功）

Python爬虫爬取网页转码报错

royma_1990的专栏

08-24

1301

问题描述在使用Python编写爬虫爬取淘宝页面数据时，遇到编码错误，具体问题如下。爬虫代码：…… request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) return response.read().decode('gbk') ……执行代码到return这一行的时候报错：UnicodeD

爬虫遇到连接中断问题，误以为是反爬

PatrickZheng的博客

10-19

7265

爬虫的一些尝试，误以为遭遇反爬

爬虫中出现的各种报错问题

weixin_45926804的博客

12-30

1566

PermissionError: 1、你有可能已经打开了这个文件,关闭这个文件即可 2、open打开了一个文件夹(目录)，而不是文件

python 网络爬虫与信息采取之异常处理

淮左青衣

08-12

2860

本篇文章转自Ryan Mitchell 写的python：网络数据采集网络是十分复杂的。网页数据格式不友好，网站服务器宕机，目标数据的标签找不到，都是很麻烦的事情。网络数据采集最痛苦的遭遇之一，就是爬虫运行的时候你洗洗睡了，梦想着明天一早数据就都会采集好放在数据库里，结果第二天醒来，你看到的却是一个因某种数据格式异常导致运行错误的爬虫，在前一天当你不再盯着屏幕去睡觉之后，没过一会儿爬虫就不再运行

python爬虫之urlError异常处理

finna_xu的博客

03-29

8420

1.URLError URLError产生的原因： (1)网络无连接，即本机无法上网 (2)连接不到特定的服务器 (3)服务器不存在 import urllib.request import urllib.error from urllib.request import urlopen request=urllib.request.Request('http://www.xxxx

Java编写简易网络爬虫教程

"Java网络爬虫简易教程" 这篇内容主要介绍了如何使用Java编写网络爬虫，首先阐述了网络爬虫的基本概念和作用，接着详细讲解了网络爬虫的基础操作——抓取网页。文章以深入理解URL作为起点，讨论了URI（通用资源标志...