爬虫
知识点:
-
整理 爬虫面试题
-
添加 爬虫的代码
-
加深 爬虫的理解
-
版本 python3.6
1. 试列出至少三种目前流行的大型数据库的名称
- Oracle
- Mysql
- MongoDB
- SQLServer
根据自己情况(推荐Mysql 、MongoDB)
2. 爬取数据后使用哪个数据库存储数据的,为什么?
- 一般爬虫使用的数据库,是根据项目来定的。如需求方指定了使用什么数据库、如果没指定,那么决定权就在爬虫程序员手里,如果自选的话,mysql和mongodb用的都是比较多的。
- 如果抓取的数据之间的耦合性很高,关系比较复杂的话,那么mysql可能会是更好的选择。
- 如果抓取的数据是分版块的,并且它们之间没有相似性或关联性不强,那么可能mongodb会更好。
- 总结就是:数据库的选择尽量从项目的数据存在的特性来考虑,还有一个问题就是开发人员最擅长那种数据库。
目前大多数公司基本是使用MongoDB,下面讲讲MongoDB的优点
3. MongoDB的优点
<