一般scrapy项目结构是这样的:
要执行的文件路径:D:\py_workspace\my_scrapy_prjs\jianshu_spider\jianshu\spiders\jianshu_sp.py,在此目录下打开命令行执行
python jianshu_sp.py
报错:No module named 'jianshu'。报错原因:import语句如下:
from jianshu.items import ArticleItem
分析:cmd下执行python文件时,当前sys的path变量
并没有包含到该scrapy项目的根目录,所以我们要把该scrapy项目的路径加到sys.path中去。在import语句之前加入如下代码:
import sys
import os
fpath = os.path.abspath(os.path.join(os.path.dirname(__file__),".."))
ffpath = os.path.abspath(os.path.join(fpath,".."))
print(ffpath)
sys.path.append(ffpath)
from jianshu.items import ArticleItem
代码分析:cmd下执行该文件时,先获得该文件的上级目录fpath,再获得上上级目录ffpath,由于scrapy项目的目录深度有2层,所以这里取得上两级的目录路径。
当然也可以把import语句改成这样:
from jianshu.items import ArticleItem
相对的,上面一长串添加系统变量的的代码就可以精简很多:
import sys
sys.path.append('..')
推荐这种方法,毕竟代码看起来简介很多。接下来再执行这个'jianshu'这个py文件,就不会报错了。