Scrapy是著名的爬虫框架,Pycharm是强大的Python IDE ,为了方便调试Scrapy框架写的程序,然后需要配置下Pycharm。
具体配置截图如下:
1.给需要调试的类关联脚本
2.下面截图是爬虫脚本,可以输出多种格式的数据
强调一点,要注意begin.py这个脚本的文件目录,如上图,工程中的文件路径所示。
from scrapy import cmdline
#需要输出那种格式的数据,打开哪个命令前的注释
#编译执行
#cmdline.execute("scrapy crawl amazondetail" .split())
#输出json数据
#cmdline.execute("scrapy crawl amazondetail -o ductdetail.json" .split())
#输出excle表格数据
cmdline.execute("scrapy crawl amazondetail -o LJductdetail.csv -t csv" .split())
3. 断点调试(截图为我抓取的某电商的数据)