python的scrapy爬虫模块间进行传参_scrapy爬虫:scrapy.FormRequest中formdata参数详解

最新推荐文章于 2024-07-24 11:21:57 发布

weixin_39921689

最新推荐文章于 2024-07-24 11:21:57 发布

阅读量873

点赞数

文章标签： python的scrapy爬虫模块间进行传参

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39921689/article/details/111423685

版权

本文详细介绍了在使用Scrapy的FormRequest模块进行表单提交时，如何处理字典类型的表单数据，包括内嵌字典的情况，并给出了错误案例和解决方案。还讨论了参数类型限制，强调formdata的值必须为unicode、str或bytes，不能是整数，并提供了中文参数的处理示例。

摘要由CSDN通过智能技术生成

1. 背景

在网页爬取的时候，有时候会使用scrapy.FormRequest向目标网站提交数据(表单提交)。参照scrapy官方文档的标准写法是：

# header信息

unicornHeader = {

'Host': 'www.example.com',

'Referer': 'http://www.example.com/',

}

# 表单需要提交的数据

myFormData = {'name': 'John Doe', 'age': '27'}

# 自定义信息，向下层响应(response)传递下去

customerData = {'key1': 'value1', 'key2': 'value2'}

yield scrapy.FormRequest(url = "http://www.example.com/post/action",

headers = unicornHeader,

method = 'POST', # GET or POST

formdata = myFormData, # 表单提交的数据

meta = customerData, # 自定义，向response传递数据

callback = self.after_post,

errback = self.error_handle,

# 如果需要多次提交表单，且url一样，那么就必须加此参数dont_filter，防止被当成重复网页过滤掉了

dont_filter = True

)

但是，当表单提交数据myFormData 是形如字典内嵌字典的形式，又该如何写？

2. 案例 — 参数为字典

在做亚马逊网站爬取时，当进入商家店铺，爬取店铺内商品列表时，发现采取的方式是ajax请求，返回的是json数据。

请求信息如下：

响应信息如下：

如上图所示，From Data中的数据包含一个字典：

marketplaceID:ATVPDKIKX0DER

seller:A2FE6D62A4WM6Q

productSearchRequestData:{"marketplace":"ATVPDKIKX0DER","seller":"A2FE6D62A4WM6Q","url":"/sp/ajax/products","pageSize":12,"searchKeyword":"","extraRestrictions":{},"pageNumber":"1"}

# formDate 必须构造如下：

myFormData = {

'marketplaceID' : 'ATVPDKIKX0DER',

'seller' : 'A2FE6D62A4WM6Q',

# 注意下面这一行，内部字典是作为一个字符串的形式

'productSearchRequestData' :'{"marketplace":"ATVPDKIKX0DER","seller":"A2FE6D62A4WM6Q","url":"/sp/ajax/products","pageSize":12,"searchKeyword":"","extraRestrictions":{},"pageNumber":"1"}'

}

在amazon中实际使用的构造方法如下：

def sendRequestForProducts(response):

ajaxParam = response.meta

for pageIdx in range(1, ajaxParam['totalPageNum']+1):

ajaxParam['isFirstAjax

最低0.47元/天解锁文章

weixin_39921689

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。