Scrapy从入门到放弃系(一)
前言
在家荒废了有一段时间了,很怕把自己之前好不容易积攒下来的经验都还回去,所以决定从头写一个属于自己的爬虫,并逐步将之前所有涉及到的技术都统一汇总到这个项目里
项目环境
- 系统:Win10(后续可能会迁移至Linux)
- Python:3.5.2
Python3.x环境下Scrapy的安装以及异常处理
首先安装还是敲了n - n次的pip命令python -m pip install Scrapy
在Scrapy的安装过程中会安装很多的依赖包,其中的Twisted可能在安装时直接报错导致Scrapy无法正常安装,此时要考虑到可能是Python版本的问题,尝试下载了whl进行手动安装,发现这种方式的安装是没有问题的。(附上链接(https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted))
创建你的Scrapy项目
安装好各种环境后,距离可以撸代码又近了一步,想想都觉得兴奋。
废话不多说,直接打开Windows的cmd,进入到我们想存放项目的文件夹,输入命令 scrapy startproject xxx(项目名称),然后一个属于你的Scrapy的项目就创建完成了。
创建完成后的目录结构是这样的
这些文件的作用分别是:
- scrapy.cfg: 项目的配置文件。
- lgSpider/: 项目的Python模块,将会从这里引用代码。
- lgSpider/items.py: 项目的目标文件。
- lgSpider/pipelines.py: 项目的管道文件。
- lgSpider/settings.py: 项目的设置文件。
- lgSpider/spiders/: 存储爬虫代码目录。
创建项目时的异常处理
在创建项目时,可能会在创建的时候抛出下图中的警告,这时你应该去检查一下service_identity的版本,并用python -m pip install service_identity --force --upgrade命令强制升级版本
若在升级中又抛出了类似于下图的异常,说明相应依赖包的版本需要更新,需要使用sudo pip install xxx(包名) --upgrade --ignore-installed xxx(包名) 逐个对抛出异常的依赖包进行强制升级
到此,整个的Scrapy的安装过程和项目的创建过程就完成了,接下来就要开撸爬虫的相关代码了!