Scrapy笔记：使用scrapy shell url时出现403错误的解决办法

最新推荐文章于 2022-08-09 11:30:57 发布

dinght2000

最新推荐文章于 2022-08-09 11:30:57 发布

阅读量179

点赞数

文章标签： python shell 爬虫

原文链接：http://www.cnblogs.com/zhangjpn/p/6802774.html

版权

参考： http://www.th7.cn/Program/Python/201704/1154208.shtml

原因是网站的防爬虫配置起到了作用

(1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0'

(2):第二种方法是修改scrapy默认配置中的user-agent默认值

　　default_settings.py文件C:\Miniconda2\Lib\sitepackages\scrapy\settings\default_settings.py

　　把USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__

　　改为USER_AGENT = 'Mozilla/5.0'

转载于:https://www.cnblogs.com/zhangjpn/p/6802774.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dinght2000

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

scrapy shell 调试返回403 返回为[]

04-22

274

https://blog.csdn.net/weixin_35913759/article/details/76546171

爬虫学习笔记（七）——Scrapy框架（二）：Scrapy shell、选择器

别呀的博客

07-13

951

一、Scrapy shell scrapy shell的作用是用于调试，在项目目录下输入scrapy shell start_urls (start_urls:目标url)得到下列信息： scrapy shell 会自动加载settings里的配置，即robots协议，请求头等都可以加载，从而发起请求可以得到正确的响应信息。 [s] Available Scrapy objects: [s] scrapy scrapy module (contains scrapy.Request, sc

参与评论您还未登录，请先登录后发表或查看评论

Scrapy shell调试返回403错误

weixin_30545285的博客

05-07

(1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy的user-agent默认值找到Python的:安装目录下的default_settings.py文件, C:\Program Files (x86)\Anaconda2\envs\scrapy\Lib\site-packages\scrapy\settings\de...

Scrapy 爬虫返回403错误

qq_43668086的博客

02-19

567

Scrapy 爬虫返回403错误

Scrapy URLError>>> ERROR: Caught exception reading instance data

u014408532的专栏

06-09

1573

scrapy运行爬虫URLError信息如下： scrapy crawl book /home/xxxxxxx/work/python/tutorial/tutorial/spiders/book_spider.py:1: ScrapyDeprecationWarning: Module `scrapy.spider` is deprecated, use `scrapy.spiders`

捕获异常URL--scrapy 源码分析之retry中间件

0x8g1T9E-

07-08

8322

这次让我们分析scrapy重试机制的源码，学习其中的思想，编写定制化middleware,捕捉爬取失败的URL等信息。 scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络抓取)所设计的，也可以应用在获取API所返回的数据(例如Amazon Associates Web Services) 或者通用的网络爬虫。一张图可看清楚scrapy中数...

scrapy笔记

11-02

- `scrapy shell url`：启动Scrapy壳，可以爬取并分析网页信息。`response`对象返回的是HTTP响应的状态码，`view(response)`会在默认浏览器中打开网页。 - `scrapy list`：列出当前项目中的所有爬虫。 - `scrapy ...

Python的Scrapy爬虫框架简单学习笔记

09-21

### Python的Scrapy爬虫框架简单学习笔记 #### 一、简单配置，获取单个网页上的内容 **1. 创建Scrapy项目** 首先通过命令行工具来创建一个新的Scrapy项目： ``` scrapystartproject getblog ``` **2. 编辑`items...

Scrapy学习笔记-Scrapy入门之创建爬虫

12-21

本文将深入讲解如何使用Scrapy创建一个基础的爬虫项目。首先，要创建一个Scrapy项目，你需要在终端输入`scrapy startproject <project_name>`命令。在这个例子中，我们创建了一个名为`tutorial`的项目。这个命令会...

Scrapy-发起相同请求得到不同的返回结果原因及解决方法

mrbone11的博客

03-04

2452

今天遇到一个玄学问题，使用相同的url，请求头headers，请求体data，在通过 >> requests.post(url,headers=headers,data=data) 请求的时候，响应没有问题，而在使用 >> r=scrapy.Request(url,method='POST',headers=headers,body=data) >> ...

scrapy爬虫错误：403终极解决方案

qq_35648576的博客

10-24

2058

爬虫遇到403，网上找带设置了代理请求头，不好使，想用代理IP，但是没有找到能用的免费IP，设置down_delay，也不好使。。。。。。。。。。有没有和我一样迷茫绝望的人们，哈哈哈下面我介绍我的绝招：在Middleware.py这个文件里找到DownloaderMiddleware，然后在process_request方法里加：time.sleep(random.random...

requests请求成功但scrapy请求失败403的原因

weixin_45067285的博客

08-09

1750

requests库爬虫请求成功，但改写为scrapy时出现forbidden403错误请求失败的原因

使用scrapy做爬虫遇到的一些坑：爬虫使用scrapy爬取网页返回403错误大全以及解决方案

热门推荐

weixin_41931602的博客

05-04

3万+

今天学习scrapy爬取网络时遇到的一些坑的可能正常情况：DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None) 错误情况：DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None) 一，网址的错误一开始...

scrapy中shell出现403解决方案

jixn的博客

02-21

9083

我们使用scrapy shell来进行调试是很方便的，但是有时会出现403错误的问题，我们来解决这个问题：出现403，表示网站拒绝提供服务因为有的网站有反爬机制，当你使用scrapy shell的时候是以是scrapy爬虫的标识进行访问网站的，这时候网站会拒绝为爬虫提供服务，这时候就会返回403错误 下面列举三个方案来解决这个问题，三个方案的原理都是一样的，即修改user-agent的值，使...

Scrapy爬虫返回403错误的解决方法

qq_31239371的博客

10-10

1万+

问题：今天在用scrapy爬取豆瓣时，出现了403的错误，如下所示：出现这个问题的原因其实是你所爬的网站使用了反爬机制，即会检查用户代理（User Agent）信息，此时需要在爬虫文件中设置headers。解决方法：如下，在你的爬虫文件中加入以下代码： def start_requests(self): yield Request("http:...

scrapy 爬豆瓣返回403错误的解决方法

xiemanR的专栏

12-29

1万+

用scrapy爬豆瓣的某些页面返回403错误：解决方法：在setting.py文件中增加USER_AGENT配置： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

Python Scrapy框架：安装与基础使用教程

"Python之Scrapy框架的安装和使用" Scrapy框架是Python世界中的一个强大工具，专为网络抓取和web抓取设计，尤其适合数据挖掘和自动化任务。作为一个快速、高效且轻量级的框架，Scrapy以其模块化的架构和丰富的功能...