前几天突然看到scrapy爬虫这方面的介绍,想跑个小项目试一下,发现问题还真不少
1、首先是:IndentationError: unindent does not match any outer indentation level
原来是因为没有对齐,对Python不熟,不知道还会有这种问题,
虽然看着是对齐的,但是因为一部分代码是粘贴复制,复制过来的不是tab退格,是.....
所以要显示空格与制表符,看看到底有什么区别
我用的是 sublime text
显示空格与制表符方法如下:
Preferences —> Settings —> "draw_white_space": "all"
2、无法显示中文的问题:SyntaxError: Non-ASCII character '\xe4' but no encoding declared
这是python编码的问题, python中默认的编码格式是ASCII格式, 所以在没修改编码格式时无法正确打印汉字。
解决办法: 在以后的每一个需要显示汉字的python文件中, 在最顶部加上一句话来定义编码格式, 以utf-8编码为例。
#-*-coding:utf-8 -*-
加上这一行就可以了
cd到工程中包含 scrapy.cfg 文件的层级(或者下一级)
scrapy crawl 名称(这个名称指的是所要运行的py文件中class里name的名字,如下图)就可以了。
4、DEBUG: Crawled (403) (referer: None)