爬虫学习笔记第1章 - 开发环境配置_第1章 1.1python的安装、1.2请求库的安装、1.3解析库的安装、1.4数据库的安装、1.-CSDN博客

本文链接：https://blog.csdn.net/u013942370/article/details/82861069

人说最好的学习是教学，我深以为然。为了理清学习这本书《Python3爬虫网络爬虫开发实战》的一些概念，开始写本系列。这个系列的博文将

提炼书中重点核心理念
记录我在学习这本书时遇到的非技术性问题及其解决方案
给出我个人的观点和建议

有些内容我暂时不会写到——因为我暂时没有学到——但一定会补上的。

这些文章将不断更新。

我的配置：Win10专业版，64位操作系统

以下开始第一章。

第一章总述：

开发环境的配置是Python开发的极为重要的一部分，而且根据个人经验，安装这些东西并不像其看起来那么简单。若是不断遇到安装失败，将会打击人的积极性。

1.1 - Python3的安装

强烈推荐使用Anaconda。首先它本身就集成了一些常用的包如lxml（如果只安装python，这个包的安装将非常销魂）我们不用再麻烦去安装了；其次，如果安装了Anaconda，可使用其自带的conda安装方式——和pip安装方式相似，只是pip install xxx 变成conda install xxx——安装成功率高于pip；再次，Anaconda集成了一个供Python数据处理专用的IDE：Spyder，界面清爽，功能齐全，个人感觉相对于PyCharm，更加稳定不作妖，而且更像我喜欢的纯编辑器。
更多信息可以参考链接：https://www.jianshu.com/p/eaee1fadc1e9

注意：Anaconda在安装时注意要将其加入环境变量（一个勾选框），虽然它注释是不建议。

1.2 - 请求库的安装

requests的安装
推荐使用conda安装。如果按书上的pip3 install requests 出现问题，可以尝试pip install requests以及easy-install requests
Selenium的安装
同上
ChromeDriver的安装
首先要注意查看Chrome的版本。我在下载安装时（2018.9.2）已经是68.0版本了，需要下载v-2.41版本的ChromeDriver。
另外如果安装的是Anaconda，则是将那个可执行文件放在Anaconda下的Scripts目录下。
GeckoDriver的安装
同上。
PhantomJS的安装
同上。在使用PhantomJS时会出现warning说Selenium对其的支持受到反对。可以无视。
aiohttp的安装
同上。

1.3 - 解析库的安装

lxml的安装
Anaconda安装的不再需要安装这个包。如果不是，则首先尝试conda，pip，easy-install等安装方式，若都不行，可以使用wheel安装包安装。
Beautiful Soup的安装
同上。注意，导入到本机python库中的库文件夹名是简写bs4而非全名
tesserocr的安装
在安装tesseract时需要注意，只需查看并勾选少数语言即可，不必勾选全部支持语言，不然逐一下载语言支持包将会非常慢。
其次，我使用pip无法安装，使用conda反馈是查询不到这个名字，建议我去Anaconda云https://anaconda.org/去搜索包。我成功搜索到了一个私人包，其安装方式是 conda install -c simonflueckiger tesserocr
吐槽：这个库的识别效率不是很高。

1.4 - 数据库的安装

MySQL的安装
暂无
MongoDB的安装
我安装的已经是4.3版本，这个版本的bin目录下已经有了data目录，但是你依然在其下需要建立一个db存储目录，同理虽然有了log目录，依然需要建立logs目录并在其下建立log日志文件
注意，在输入那一长串安装命令前，需要在命令行中cd到bin目录下，这个在插图中有显示但是没有文本提醒。
强烈推荐可视化管理工具Robo 3T
Redis的安装
安装非常省心。
强烈推荐可视化管理工具Redis Desktop Manager

1.5 - 存储库的安装

PyMySQL的安装
暂无
PyMongo的安装
暂无
redis-py的安装
暂无
RedisDump的安装
非常坑。需要先安装Ruby语言，而Ruby语言需要一些C++库的支持（推荐使用VS15），否则在之后的更新安装时无法成功。需要耐心，不成功可以重装几次。

1.6 - Web库的安装

Flask的安装
暂无
Tornado的安装
暂无

1.7 - App爬取相关库的安装

Charles的安装
暂无
mitmproxy的安装
暂无
Appium的安装
暂无

1.8 - 爬虫框架的安装

pyspider的安装
pip 安装时若有问题，可以使用命令 pip install --user pyspider
Scrapy的安装
推荐使用conda安装可以省非常多的事。
Scrapy-Splash的安装
这里最坑的不是这个框架本身，而是Docker的安装和电脑虚拟化的设置。如果你安装时显示如下错误：image operating system"linux" cannot be used on this platform,你需要在Docker 菜单中选择Switch to Linux Container，即将Docker内部转换为linux环境。
而如果转换失败，那就是你的电脑的虚拟化没有开启。直接在cmd中输入systeminfo查看最后一项Hype-V的要求；或者ctrl+alt+del打开任务管理器-性能-CPU中查看【虚拟化】。若是【已禁用】，那需要进入你电脑的BIOS选择开启虚拟化。之后还需要确保Hype-V开启。也可。

参考开启Hype-V：https://jingyan.baidu.com/article/380abd0a7671071d90192cad.html
参考进入BIOS：https://jingyan.baidu.com/article/8275fc864d423e46a03cf638.html

Scrapy-Redis的安装
暂无

1.9 - 部署相关库的安装

Docker的安装
从网上下载安装包之后安装。但之后需要注意的是如果直接在cmd输入docker显示没有路径，就需要将docker安装文件下的bin文件夹加入系统路径。在命令docker可以成功之后，需要尝试docker run hello-world 测试其是否可用。如果不可用，参考上节splash，检查本机是否开启了虚拟化。
Scrapyd的安装
可使用命令easy_install scrapyd
Scrapyd-Client的安装
可使用命令easy_install scrapyd-client
Scrapyd API的安装
可使用命令easy_install python-scrapy-api
Scrapyrt的安装
可使用命令easy_install scrapyrt
Gerapy的安装
可使用命令easy_install gerapy