scrapy框架用post 爬取网站数据的两种方法区别

最新推荐文章于 2024-09-11 06:09:18 发布

番茄西瓜汤

最新推荐文章于 2024-09-11 06:09:18 发布

阅读量854

点赞数

分类专栏：爬虫文章标签： scrapy 爬虫

本文链接：https://blog.csdn.net/weixin_42329277/article/details/84141228

版权

爬虫专栏收录该内容

27 篇文章

订阅专栏

本文详细介绍了在Scrapy框架中如何实现POST请求的方法，包括重构start_requests方法，使用FormRequest进行POST请求的具体实践，以及如何正确配置请求头和cookies。文章强调了POST请求头的配置要点，以及cookies只需初次设置的特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

post请求，一定要重新调用父类的 start_requests(self)方法

方法1：（推荐）

重构start_requests

def start_requests(self):
    data = {
        'source': 'index_nav',
        'redir': 'https://www.douban.com/',
        '....'
    }
    for url in self.start_urls:
        yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

注意，post请求头需要在setting中配置

UA不要设置到请求头中，单独设置 COOKIES也是要单独写

DEFAULT_REQUEST_HEADERS = {
    'X-CSRF-Token': 'rXzQIxF01Y3lJVYBQsIhp0wwecirJSO8',
}


yield scrapy.FormRequest(url, formdata=data, cookies=cookie,callback=self.parse)

注意！！ cookies 设置只需要第一次设置后面不需要再设置，会自动携带

方法2：

重构start_requests

def start_requests(self):
    yield scrapy.Request(url=url, callback=self.parse, method='post', body=data)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

番茄西瓜汤

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

64万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

Python爬虫——scrapy框架介绍

nnn0245的博客

11-29

424

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

参与评论您还未登录，请先登录后发表或查看评论

scrapy的全网站爬取数据

Davidzhuming的博客

05-13

555

scrapy的全网站爬取数据

Scrapy爬取网页数据

weixin_40027906的博客

12-13

191

转载 https://blog.csdn.net/finn_wft/article/details/80881946@TOC 欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持...

python scrapy爬取网站数据一

风水月的专栏

06-29

787

原来写过一篇scrapy的介绍，说了下scrapy的环境如何配置，该篇博客地址是：win10 python安装及环境配置、scrapy框架安装及PyCharm集成本篇会从一个实际的例子当中记录scrapy的使用大家都对三国很熟，下面我们从三国在线（http://www.e3ol.com/biography-index.html）来获取三国人物数据，获取三国人物数据的整体代码如下，本代码抓...

Scrapy框架爬取数据

dayuhaitang1的博客

07-15

3560

因为对爬虫有着很大的好奇心，所以又找了一些资料继续开始了学习之旅。文章目录一、Scrapy框架简介二、爬取网络数据2.1爬取单个网页数据2.2爬取多个网页数据三、一些小方法四、小结一、Scrapy框架简介如果你有跑车，你还会步行吗？这是李刚老师书里的一句话。在这里Scrapy就是爬虫，而像Python内置的urllib和re模块则是步行，跑车和步行的确都可以到达目的地，但是我们大多数通常还是会选择跑车，毕竟速度快而且又方便。简单的来讲，Scrapy是一个专业的、高效的爬虫框架，当然像这样的框架也不在

用scrapy框架爬取拉勾网招聘信息

m0_49079037的博客

07-14

2569

本文实例为爬取拉勾网上的如职位名, 薪资, 公司名称相关python的职位信息。分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏可以看到搜索结果页的url为: 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=', 尝试将?后的参数删除, 发现访问结果相同. 打开Chrome网页调试工具(F12), 分析每条搜索结果(即每个职位)在html中

Scrapy入门-爬取需要登录后才能访问的数据

千金散尽还复来

02-28

3684

本篇是Scrapy入门系列第四篇，建议读者依顺序循序渐进阅读，有任何疑问可以在评论区留言。另外，您的支持是我坚持更新的最大动力，右上角点关注给个鼓励吧。前面几篇文章抓取的均是公开的数据，即没有控制访问权限即可浏览的数据。但还是存在一些网站（比如教学管理系统、内部论坛等），它会首先要求你登录，然后才能访问到后续的内容。这种情况下，就要首先解决登录授信的问题。在开始编码实现前，我们先了解下登录授信的原理。 Cookie Cookie，引用百度百科的定义“是某些网站为了辨别用户身份，进行Session跟踪

【Python技术学习】- Scrapy框架的使用之Scrapy通用爬虫

最新发布

xiaoli8748的专栏

09-11

1527

要实现新闻的爬取，我们需要做的就是定义好Rule，然后实现解析函数。下面我们就来一步步实现这个过程。首先将start_urls修改为起始链接，代码如下所示：代码解读复制代码之后，Spider爬取start_urls里面的每一个链接。所以这里第一个爬取的页面就是我们刚才所定义的链接。得到Response之后，Spider就会根据每一个Rule来提取这个页面内的超链接，去生成进一步的Request。接下来，我们就需要定义Rule来指定提取哪些链接。当前页面如下图所示。

scrapy POST方式抓取走过的坑

weixin_42406479的博客

06-23

469

背景今天老板让核查新上线的app中的中标数据展示情况，一条一条数据点开看实在是太慢了，于是想抓包获取app请求的api接口以及传入的参数，获取返回的数据内容，将数据存储到sqlite3中直接通过执行sql来统计数据质量。先打开fiddle4,设置好代理，设置如下： mr_酱 mr_酱 scrapy 项目初始化执行命令创建项目： scrapy start...

Scrapy爬取2-接口爬取

weixin_44826986的博客

04-13

2480

Scrapy爬取Ajax接口

python网络爬虫——Scrapy全站数据爬取【手动请求发送】及post请求的发送

09-25

333

- 全站数据爬取 1.手动请求发送： - yield scrapy.Request(url,callback)【callback】回调一个函数用于数据解析实例1.爬取阳光网多页面试数据 1）.爬虫文件sun.py # -*- coding: utf-8 -*- import scrapy from sunLinePro.item...

scrapy模拟POST登录

Davidzhuming的博客

05-14

782

一、利用已获取的cookies绕过POST请求，对url直接进行GET请求其一般在下载中间件调整，也可以在爬虫中间件调整在下载中间件project_nameSpiderMiddleware类中有个方法process_request()，修改请求参数都在这个方法内。(1)在settings.py中打开DEFAULT_REQUEST_HEADS，增加cookie:cookies_str键值对。(2)利用request.headers[‘cookie’]设置。

scrapy-爬取流程

godme

03-11

812

什么时候到pipeline，什么时候到spider这个就不说了，这个是框架跳转到的流程关键是访问之前要登录怎么办，数据还要注入呢所以这次我们来关注一下网页下载前的流程start_urls这是个列表，里面就是爬取的链接了我们前面爬取就只是写了一个，但是其实可以写多个链接又是怎么访问的呢parse_start_url这东西你就可以手动提取链接返回了start_requests这东西你就得好好注意了从...

python爬虫之scrapy

wjl31802的博客

09-16

7363

scrapy安装在windows下，在dos中运行pip install Scrapy报错采用pip安装，安装时可能会出现安装错误Microsoft Visual C++ 14.0 is required，解决方案 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件（如我的Twisted‑1...

scrapy爬虫框架学习入门教程及实例

jly58fgjk的博客

06-05

6221

Scrapy是一个基于Twisted，纯Python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～ Scrapy 使用 Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。整体架构如下图所示：绿线是数据流向，首先从初始URL 开始，Scheduler 会将其交给 D

Scrapy框架 -- POST请求实现案例

Web安全工具库

04-23

306

六、如果首页地址是get请求，解析内容用到了POST请求，可以在psrse里面再进行post操作。一、创建一个Scrapy项目fanyi，并进入该项目创建，fanyipc爬虫文件。二、修改配置文件settings，关闭君子协议，只看报错信息，自定义UA头。三、分析目标网址，用的POST请求。四、重写父类方法实现POST请求。

python爬取网站数据（post)方式

well2049的博客

01-06

5887

最近python太火了，所以也拿来学习一下。按照网上的教程写了一下简单的post数据请求。我使用的环境python3.6，使用的到库有urllib和beautifulsoup python的安装还是非常简单的，直接到官网下载后安装即可。第三方库的安装执行 pip install beautilfulsoup4 pip install requests 当然使用内建的模块urli

中国大学MOOC Scrapy爬虫：课程信息爬取与可视化实践

综上所述，这些知识点覆盖了从Scrapy框架的基本使用，到对Ajax接口爬虫的处理方法，再到数据存储和可视化的技巧，同时也涉及到了编程语言Python和相关库Pyecharts的运用。此外，还强调了web基础知识对于实现爬虫项目...