当使用scrpay框架去写爬虫的时候会遇到post请求方式的url,一般遇到这种url会添加headers与data。往常data会要求有多种格式,比如字符串或者json格式。因为使用scrapy框架请求不会像requests模块那样。我们需要使用scrapy内置的请求方式。往往这就导致了data格式出问题。之前爬取就遇到了一次:
看到这个错误很是懵13,因为从来没遇到过 而且报错的行是scrapy.FormRequest请求的那一行,结果自己上网去查了很多的资料 。都是说有什么空格啥的。搞了一大堆之后都没有解决。最后请教了高人。告知是在scrapy的data的格式有问题。一开始我是这样写的:
yield scrapy.FormRequest(url, formdata=data, callback=self.parse,dont_filter=True)
有的post请求的url是这样写的 一点问题都没有 可是有的url这样去请求就会报上面那个错误(至今都不知道原因,如果有知道的大佬希望能告知)
遇到这个错误的时候我们需要把data的格式改一下,然后在请求里也要改一下data的声明方式(这个好像是只针对于data的格式要求是json字典的,字符串的我没有尝试过)。
在定义好data之后,我们需要添加一行: data=json.dumps(data).encode('utf-8')
然后请求方式里声明data要从formdata=data 改成 body=data。
这样改完之后就可以正常请求了。高人告诉我这在scrapy高级文档里有说明。但是自己没有去看!
这个错误的解决办法仅仅只针对于使用scrapy去解析post请求的url中data的问题。
希望对你们有帮助