声明:参考资料《从零开始学Python网络爬虫 》作者:罗攀,蒋仟 机械工业出版社 ISBN: 9787111579991
参考资料《精通Python网络爬虫:核心技术、框架与项目实战 》作者:韦玮 机械工业出版社 ISBN: 9787111562085
Python的爬虫框架其实就是一些爬虫项目的半成品,框架里面已经完成了相当一部分的工作量,而我们爬取数据时就像是在做填空题一样,往框架里面填充我们的主要步骤即可。使用框架来爬虫,可以提高项目的开发进度。常见的Python爬虫框架主要有Scrapy框架、Crawley框架、Portia框架、newspaper框架、python-goose框架等。这么多框架我们该做何种选择呢?其实框架只是一种工具,只要熟练地使用一种工具,就可以快速上手其他工具。Scrapy框架是一套比较成熟的开源框架,具有开发周期短、爬取效率高等优点。因此我们选择Scrapy框架来进行我们的爬虫项目。
Scrapy框架的安装
1、在pycharm里面安装
打开pycharm,依次点击 File —> Setting —> Project 你的项目名 —>Project Interpreter。在右侧点击 “ + ” 号
在弹出的界面输入 Scrapy 然后点击相应的版本,点击 install 即可
scrapy框架需要一些库的支持,因此在安装完Scrapy框架之后,继续使用相同的方法安装 Lxml库、zope.interface库、twisted库、pyOpenSSL库以及pywin32库。
2、利用 pip 安装
以win10系统为例,在windows图标右键 —>运行—> 输入 cmd;在打开的命令窗口输入 pip3 install Scrapy 然后回车,就可以安装除 pywin32库之外的其他所有需要的库,然后在利用方法1 安装 pywin32库即可。
创建Scrapy项目
Scrapy项目需要利用命令窗口进行创建。以创建小猪网的爬虫项目为例:
- 在命令窗口输入 F: (这个是我要创建项目的盘)回车
- 输入 cd F:\soft_exercise\python(这个是我要创建项目的具体路径) 回车
- 输入 scrapy startproject (这个是创建项目的命令)douabn(这是项目名称) 回车
这样就完成Scrapy项目的创建了,然后在pycharm里面打开这个项目就可以了。