爬虫学习笔记第1章 - 开发环境配置

人说最好的学习是教学,我深以为然。为了理清学习这本书《Python3爬虫网络爬虫开发实战》的一些概念,开始写本系列。这个系列的博文将

  1. 提炼书中重点核心理念
  2. 记录我在学习这本书时遇到的非技术性问题及其解决方案
  3. 给出我个人的观点和建议

有些内容我暂时不会写到——因为我暂时没有学到——但一定会补上的。

这些文章将不断更新。

我的配置:Win10专业版,64位操作系统

以下开始第一章。

第一章总述:

开发环境的配置是Python开发的极为重要的一部分,而且根据个人经验,安装这些东西并不像其看起来那么简单。若是不断遇到安装失败,将会打击人的积极性。

1.1 - Python3的安装

强烈推荐使用Anaconda。首先它本身就集成了一些常用的包如lxml(如果只安装python,这个包的安装将非常销魂)我们不用再麻烦去安装了;其次,如果安装了Anaconda,可使用其自带的conda安装方式——和pip安装方式相似,只是pip install xxx 变成conda install xxx——安装成功率高于pip;再次,Anaconda集成了一个供Python数据处理专用的IDE:Spyder,界面清爽,功能齐全,个人感觉相对于PyCharm,更加稳定不作妖,而且更像我喜欢的纯编辑器。
更多信息可以参考链接:https://www.jianshu.com/p/eaee1fadc1e9

注意:Anaconda在安装时注意要将其加入环境变量(一个勾选框),虽然它注释是不建议。

1.2 - 请求库的安装

  1. requests的安装
    推荐使用conda安装。如果按书上的pip3 install requests 出现问题,可以尝试pip install requests以及easy-install requests

  2. Selenium的安装
    同上

  3. ChromeDriver的安装
    首先要注意查看Chrome的版本。我在下载安装时(2018.9.2)已经是68.0版本了,需要下载v-2.41版本的ChromeDriver。
    另外如果安装的是Anaconda,则是将那个可执行文件放在Anaconda下的Scripts目录下。

  4. GeckoDriver的安装
    同上。

  5. PhantomJS的安装
    同上。在使用PhantomJS时会出现warning说Selenium对其的支持受到反对。可以无视。

  6. aiohttp的安装
    同上。

1.3 - 解析库的安装

  1. lxml的安装
    Anaconda安装的不再需要安装这个包。如果不是,则首先尝试conda,pip,easy-install等安装方式,若都不行,可以使用wheel安装包安装。
  2. Beautiful Soup的安装
    同上。注意,导入到本机python库中的库文件夹名是简写bs4而非全名
  3. tesserocr的安装
    在安装tesseract时需要注意,只需查看并勾选少数语言即可,不必勾选全部支持语言,不然逐一下载语言支持包将会非常慢。
    其次,我使用pip无法安装,使用conda反馈是查询不到这个名字,建议我去Anaconda云https://anaconda.org/去搜索包。我成功搜索到了一个私人包,其安装方式是 conda install -c simonflueckiger tesserocr
    吐槽:这个库的识别效率不是很高。

1.4 - 数据库的安装

  1. MySQL的安装
    暂无
  2. MongoDB的安装
    我安装的已经是4.3版本,这个版本的bin目录下已经有了data目录,但是你依然在其下需要建立一个db存储目录,同理虽然有了log目录,依然需要建立logs目录并在其下建立log日志文件
    注意,在输入那一长串安装命令前,需要在命令行中cd到bin目录下,这个在插图中有显示但是没有文本提醒。
    强烈推荐可视化管理工具Robo 3T
  3. Redis的安装
    安装非常省心。
    强烈推荐可视化管理工具Redis Desktop Manager

1.5 - 存储库的安装

  1. PyMySQL的安装
    暂无
  2. PyMongo的安装
    暂无
  3. redis-py的安装
    暂无
  4. RedisDump的安装
    非常坑。需要先安装Ruby语言,而Ruby语言需要一些C++库的支持(推荐使用VS15),否则在之后的更新安装时无法成功。需要耐心,不成功可以重装几次。

1.6 - Web库的安装

  1. Flask的安装
    暂无
  2. Tornado的安装
    暂无

1.7 - App爬取相关库的安装

  1. Charles的安装
    暂无
  2. mitmproxy的安装
    暂无
  3. Appium的安装
    暂无

1.8 - 爬虫框架的安装

  1. pyspider的安装
    pip 安装时若有问题,可以使用命令 pip install --user pyspider
  2. Scrapy的安装
    推荐使用conda安装可以省非常多的事。
  3. Scrapy-Splash的安装
    这里最坑的不是这个框架本身,而是Docker的安装和电脑虚拟化的设置。如果你安装时显示如下错误:image operating system"linux" cannot be used on this platform,你需要在Docker 菜单中选择Switch to Linux Container,即将Docker内部转换为linux环境。
    而如果转换失败,那就是你的电脑的虚拟化没有开启。直接在cmd中输入systeminfo查看最后一项Hype-V的要求;或者ctrl+alt+del打开任务管理器-性能-CPU中查看【虚拟化】。若是【已禁用】,那需要进入你电脑的BIOS选择开启虚拟化。之后还需要确保Hype-V开启。也可。

参考开启Hype-V:https://jingyan.baidu.com/article/380abd0a7671071d90192cad.html
参考进入BIOS:https://jingyan.baidu.com/article/8275fc864d423e46a03cf638.html

  1. Scrapy-Redis的安装
    暂无

1.9 - 部署相关库的安装

  1. Docker的安装
    从网上下载安装包之后安装。但之后需要注意的是如果直接在cmd输入docker显示没有路径,就需要将docker安装文件下的bin文件夹加入系统路径。在命令docker可以成功之后,需要尝试docker run hello-world 测试其是否可用。如果不可用,参考上节splash,检查本机是否开启了虚拟化。
  2. Scrapyd的安装
    可使用命令easy_install scrapyd
  3. Scrapyd-Client的安装
    可使用命令easy_install scrapyd-client
  4. Scrapyd API的安装
    可使用命令easy_install python-scrapy-api
  5. Scrapyrt的安装
    可使用命令easy_install scrapyrt
  6. Gerapy的安装
    可使用命令easy_install gerapy
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值