Scrapy 问题锦集（后边继续更新)

最新推荐文章于 2020-09-14 14:08:51 发布

哈里哈气

最新推荐文章于 2020-09-14 14:08:51 发布

阅读量5.7k

点赞数

分类专栏：爬虫文章标签：爬虫 scrapy scrapy问题爬虫问题

本文链接：https://blog.csdn.net/qq_34067821/article/details/82015066

版权

本文汇总了使用Scrapy框架时可能遇到的问题及其解决方法，包括语法错误、robots.txt遵守设置、XPath的text()与extract()区别、处理403错误、JSON转换操作以及命令行错误等。

摘要由CSDN通过智能技术生成

1.这个问题要么换3.6要么改源码

File “c:\users\administrator.user-20160420ae\appdata\local\programs\python\pyt
hon37-32\lib\site-packages\twisted\conch\manhole.py”, line 154
def write(self, data, async=False):
^
SyntaxError: invalid syntax

2.robots.txt:

DEBUG: Forbidden by robots.txt:

这个文件中规定了本站点允许的爬虫机器爬取的范围，因为默认scrapy遵守robot协议，所以会先请求这个文件查看自己的权限，出错是因为使用的爬虫爬取内容违背这个robot.txt。所以只要让爬虫不遵守该协议就好了，具体做法是找到settings文件里的ROBOTSTXT_OBEY设置成False。
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

3.xpath的text()和extract()