三、使用 Spyder IDE 工具

上一篇文章 中创建项目名称的时候出现笔误,项目名称应该是

tencent_video

而我却错写成 tencent_viedo. 如果单纯在项目根目录下修改文件夹名称的话存在问题,应该要把文件夹下所有出现项目名称依赖的文件内容全都修改过来才行。如果刚开始创建项目就发现项目名称不满意的话,直接删除这个项目文件夹,再使用 scrapy startproject 命令重新创建就可以。

Scrapy 项目在 IDE 工具下不能直接进行调试,创建项目、运行项目等都必须使用 scrapy 命令才可以,常用的 scrapy 命令简单列在下方

# 创建 scrapy 项目
scrapy startproject your_project

# 创建爬虫
scrapy genspider your_spider domain.com

# 执行测试脚本
scrapy shell "http://domain.com"

# 运行 scrapy 项目
scrapy crawl your_spider

在编写爬虫项目的时候,有一个比较方便的 IDE 工具聊胜于无,虽然还是要运行命令行指令,但是可以比较方便的进行文件目录的切换和编程。笔者也是刚刚学习爬虫,对爬虫方面的知识掌握的不深刻,需要时常打开浏览器百度和谷歌资料,又要新建浏览器窗口查看待爬网页及其源码,又要打开命令行窗口敲指令,还要用常用的编辑器比如 NotePad++ 进行编程,还要打开 Windows 资源管理器切换文件夹,简直手忙脚乱.

个人体验比较好的方式是使用谷歌浏览器和已经下载好的 Spyder 工具。谷歌浏览器自带开发者工具,Spyder 本身比较轻量级,两者都很易用。

Spyder 如果是第一次打开,其默认窗口数目还是比较冗余,可以选择 Views/Panes 去掉勾选像 Variable explorer、History log 等等不常用的面板,然后点击面板中的放大图标,拖动到个人比较习惯的位置,结果图如下:


左边是文件浏览器,之所以不选择项目浏览器(Project explorer),因为 Spyder 工具无法识别出 Scrapy 项目,只能识别自己的Spyder 项目。下面的控制台使用的是 IPython console,也就是说直接进入了 python 语言环境下,所以功能上来说和 Anaconda prompt 不同,如果要执行 scrapy 命令,必须使用如下方式:

>import os
>os.system('scrapy command')
然后还是会弹出 cmd 窗口,还不如隐藏这个窗口,直接使用 prompt,所以这是目前发现的 Spyder 不足的地方,要是可以直接把 prompt 内嵌在 Spyder 里面会更方便,当然这样可能也不太符合 IDE 工具的设计逻辑。

下一篇博客,就要开始使用 Spyder IDE 进行爬虫开发,简单抓取一下腾讯视频上豆瓣评分最高的30个电视剧的名字和豆瓣分数。

展开阅读全文

没有更多推荐了,返回首页