1.原本安装了Python,还有必要安装Anaconda吗?
有必要
Anaconda,其包含了conda、Python等180多个科学包及其依赖项,是一个开源的包、环境管理器,能够在不同的环境之间切换.
2.什么是MongoDB?
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。
3.什么是Robomogo?
MongoDB的可视化界面。下载Robomogo免费版就足够用了
4.什么是Redis?
其遵守BSD协议,是一个高性能的key-value数据库。
5.什么是RedisDesktopManager?
Redis的可视化界面
6.Python爬虫常用库有哪些?
urllib
提供了一系列用于操作URL的功能。urllib的request
模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应。
Re
执行正则表达式需要使用的模块
selenium
此库驱动浏览器获取渲染后的网页信息。
页面渲染:加载-解析-渲染(构建渲染树,对各个元素进行位置计算、样式计算等等,然后根据渲染树对页面进行渲染(可以理解为“画”元素))
注意:因为最新版本的selenium已经抛弃了旧版本的ChromeDriver ,所以,用2.几版本的可以保证程序正常通过。
phantomjs
无界面浏览器,无需弹出浏览器进行爬虫
lxml, beautifulsour4
可对网页进行解析
pyquery
pymysql
pymongo
分别对应最开始介绍的安装软件
flask
代理设置
django
Web服务器框架
jupyter
日志文档,可以在线跑代码等