总结 北理工-嵩老师
均在cmd里面的命令行中运行
准备条件,准备一个文件夹用于存储此框架代码,先切盘切路径到该位置
1.0 创建框架 Scrapy startproject python123demo
2.0 切换到下一步路径(该框架文件的路径下) cd python123demo
3.0 创建爬虫 scrapy genspider demo python123.io
4.0配置文件;刚创建的demo.py文件
代码替换,替换掉原有代码
import scrapy
class DemoSpider(scrapy.Spider):
name = "demo"
#allowed_domains = ["python123.io"]
start_urls = ['https://python123.io/ws/demo.html']
def parse(self, response):
fname = response.url.split('/')[-1]
with open(fname, 'wb') as f:
f.write(response.body)
self.log('Saved file %s.' % name)
保存后,继续在cmd里面运行Scrapy scrapy crawl demo
运行后爬取到的文件保存在与项目名同一级目录下,如下图所示:
爬取过程中出现的错误:TabError: inconsistent use of tabs and spaces in indentation
用pycharm打开刚编写的代码,系统给出一条提示Unexpected indent
翻译过来就是意外缩进的意思,
你可以查看自己刚编写的代码是否存在缩进问题。尽量避免使用txt文本文档