用python通过原生方式写过几次爬虫项目,代码冗长不易维护;Scrapy是Python语音编写的一个通用性爬虫框架,能够非常方便的通过几行代码来爬取网站数据,提取结构性数据。当然经过发展Scrapy也应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。我想通过对Scrapy的学习来对之前的爬虫项目进行一次重构,来感受一下Scrapy有多么方便。首先来安装一下Scrapy框架。
我的本机环境是mac,咱们直接通过pip install Scrapy
命令来安装。
当然不可能这么简单就安装成功了,报错提示为pip版本过低。接下来咱们升级一下pip版本:python -m pip install --upgrade pip
呵呵哒又报错,看提示这次是权限问题
Could not install packages due to anEnvironmentError: [Errno 13] Permission denied: xxx
按照提示增加–user 命令: python -m pip install --user --upgrade pip
pip安装升级成功了哇哈哈?,但是别高兴地太早。查看一下pip版本 pip -V
what the ** 怎么还是10.0.1版本…
尝试卸载掉旧版本pip,然后重新安装。 pip python -m pip uninstall pip
仍然报错。。
看提示仍然是权限问题,增加sodo后执行成功sudo pip python -m pip uninstall pip
然后重新安装pip: sudo easy_install pip
安装成功,查看版本 pip 18.1
yes!
好了现在继续安装scarpy:pip install Scrapy
又报错
执行命令升级一下six 模块:
sudo pip install six --upgrade --ignore-installed six
然后继续执行 pip install --user Scrapy
安装Scrapy
终于他喵的按照成功了。。。
但是执行scrapy命令:
-bash: scrapy: command not found
复制一下软连接到 /usr/local/bin/scrapy
ln -s /Users/songxiao/Library/Python/2.7/bin/scrapy /usr/local/bin/scrapy
scrapy安装目录是从安装日志里找的,你可以往上翻一下。
到此安装Scrapy的踩坑之旅结束了…