pycharm运行scrapy项目
刚学scrapy,之前都是在命令行运行scrapy项目,但是据说用pycharm可以debugger,想试试,但会出问题,下面是我看了网上解决方法之后总结的我觉的较好的解决方法
配置过程
首先在项目文件和scrapy.cfg同一级别目录下新建一个main.py
main.py
# -*— coding: UTF-8 -*-
from scrapy.cmdline import execute
import sys
import os
# 打断点调试py文件
# sys.path.append('D:PyCharmpy_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'tianmao'])
注意
execute的第三个参数tianmao是你spider文件下执行爬取的py文件里属性name的值
下一步将setting.py文件里的机器三定律改成false(最好都改成false,这样就可以爬更多网页了)
# Obey robots.txt rules
# 遵守机器人。三种规则
ROBOTSTXT_OBEY = False
接下来最重要的是看你spider文件下的爬取文件spider.py有没有代码错误,像我之前就是start_urls 写成start_url了,导致debugger的时候一直以为是其他错误,一直进不了爬取操作代码
接下来就是执行运行scrapy项目了,打开main.py文件,右键
就可以看到Run和Debug这两个选项,这时候你就能感受到这个IDE的好处了,毕竟用命令来查询还是蛮麻烦的