人说最好的学习是教学,我深以为然。为了理清学习这本书《Python3爬虫网络爬虫开发实战》的一些概念,开始写本系列。这个系列的博文将
- 提炼书中重点核心理念
- 记录我在学习这本书时遇到的非技术性问题及其解决方案
- 给出我个人的观点和建议
有些内容我暂时不会写到——因为我暂时没有学到——但一定会补上的。
这些文章将不断更新。
我的配置:Win10专业版,64位操作系统
以下开始第一章。
第一章总述:
开发环境的配置是Python开发的极为重要的一部分,而且根据个人经验,安装这些东西并不像其看起来那么简单。若是不断遇到安装失败,将会打击人的积极性。
1.1 - Python3的安装
强烈推荐使用Anaconda。首先它本身就集成了一些常用的包如lxml(如果只安装python,这个包的安装将非常销魂)我们不用再麻烦去安装了;其次,如果安装了Anaconda,可使用其自带的conda安装方式——和pip安装方式相似,只是pip install xxx 变成conda install xxx——安装成功率高于pip;再次,Anaconda集成了一个供Python数据处理专用的IDE:Spyder,界面清爽,功能齐全,个人感觉相对于PyCharm,更加稳定不作妖,而且更像我喜欢的纯编辑器。
更多信息可以参考链接:https://www.jianshu.com/p/eaee1fadc1e9
注意:Anaconda在安装时注意要将其加入环境变量(一个勾选框),虽然它注释是不建议。
1.2 - 请求库的安装
-
requests的安装
推荐使用conda安装。如果按书上的pip3 install requests 出现问题,可以尝试pip install requests以及easy-install requests -
Selenium的安装
同上 -
ChromeDriver的安装
首先要注意查看Chrome的版本。我在下载安装时(2018.9.2)已经是68.0版本了,需要下载v-2.41版本的ChromeDriver。
另外如果安装的是Anaconda,则是将那个可执行文件放在Anaconda下的Scripts目录下。 -
GeckoDriver的安装
同上。 -
PhantomJS的安装
同上。在使用PhantomJS时会出现warning说Selenium对其的支持受到反对。可以无视。 -
aiohttp的安装
同上。
1.3 - 解析库的安装
- lxml的安装
Anaconda安装的不再需要安装这个包。如果不是,则首先尝试conda,pip,easy-install等安装方式,若都不行,可以使用wheel安装包安装。 - Beautiful Soup的安装
同上。注意,导入到本机python库中的库文件夹名是简写bs4而非全名 - tesserocr的安装
在安装tesseract时需要注意,只需查看并勾选少数语言即可,不必勾选全部支持语言,不然逐一下载语言支持包将会非常慢。
其次,我使用pip无法安装,使用conda反馈是查询不到这个名字,建议我去Anaconda云https://anaconda.org/去搜索包。我成功搜索到了一个私人包,其安装方式是 conda install -c simonflueckiger tesserocr
吐槽:这个库的识别效率不是很高。
1.4 - 数据库的安装
- MySQL的安装
暂无 - MongoDB的安装
我安装的已经是4.3版本,这个版本的bin目录下已经有了data目录,但是你依然在其下需要建立一个db存储目录,同理虽然有了log目录,依然需要建立logs目录并在其下建立log日志文件
注意,在输入那一长串安装命令前,需要在命令行中cd到bin目录下,这个在插图中有显示但是没有文本提醒。
强烈推荐可视化管理工具Robo 3T - Redis的安装
安装非常省心。
强烈推荐可视化管理工具Redis Desktop Manager
1.5 - 存储库的安装
- PyMySQL的安装
暂无 - PyMongo的安装
暂无 - redis-py的安装
暂无 - RedisDump的安装
非常坑。需要先安装Ruby语言,而Ruby语言需要一些C++库的支持(推荐使用VS15),否则在之后的更新安装时无法成功。需要耐心,不成功可以重装几次。
1.6 - Web库的安装
- Flask的安装
暂无 - Tornado的安装
暂无
1.7 - App爬取相关库的安装
- Charles的安装
暂无 - mitmproxy的安装
暂无 - Appium的安装
暂无
1.8 - 爬虫框架的安装
- pyspider的安装
pip 安装时若有问题,可以使用命令 pip install --user pyspider - Scrapy的安装
推荐使用conda安装可以省非常多的事。 - Scrapy-Splash的安装
这里最坑的不是这个框架本身,而是Docker的安装和电脑虚拟化的设置。如果你安装时显示如下错误:image operating system"linux" cannot be used on this platform,你需要在Docker 菜单中选择Switch to Linux Container,即将Docker内部转换为linux环境。
而如果转换失败,那就是你的电脑的虚拟化没有开启。直接在cmd中输入systeminfo查看最后一项Hype-V的要求;或者ctrl+alt+del打开任务管理器-性能-CPU中查看【虚拟化】。若是【已禁用】,那需要进入你电脑的BIOS选择开启虚拟化。之后还需要确保Hype-V开启。也可。
参考开启Hype-V:https://jingyan.baidu.com/article/380abd0a7671071d90192cad.html
参考进入BIOS:https://jingyan.baidu.com/article/8275fc864d423e46a03cf638.html
- Scrapy-Redis的安装
暂无
1.9 - 部署相关库的安装
- Docker的安装
从网上下载安装包之后安装。但之后需要注意的是如果直接在cmd输入docker显示没有路径,就需要将docker安装文件下的bin文件夹加入系统路径。在命令docker可以成功之后,需要尝试docker run hello-world 测试其是否可用。如果不可用,参考上节splash,检查本机是否开启了虚拟化。 - Scrapyd的安装
可使用命令easy_install scrapyd - Scrapyd-Client的安装
可使用命令easy_install scrapyd-client - Scrapyd API的安装
可使用命令easy_install python-scrapy-api - Scrapyrt的安装
可使用命令easy_install scrapyrt - Gerapy的安装
可使用命令easy_install gerapy