Python爬取100G级别,2000K以上数据量,用mysql还是mongodb?

欢迎大家在网易新闻搜索:py柯西,欢迎大家点点关注,

如果觉得小编写的好的可以点点关注,点点赞,给个评论,欢迎吐槽

这个问题我们可以从两个角度去解答。一个是100G的数据量用MySQL和MongoDB在存读取上有什么区别,另一个是数据本身的结构和你要进行的应用来考虑使用哪种数据库比较方便。

100G的数据量

目前来看100G的数据量其实对MySQL和MongoDB在存放都没有什么压力,如果你要经常读取,那么我建议你的MongoDB来做存储。原因在于MongoDB是内存映射模式,可以充分利用系统的内存资源,内存越大MongoDB的查询速度越快,毕竟磁盘与内存的I/O效率不是一个量级的

如果你对查询的速度要求不高,而且爬下来的数据是结构化数据,你又熟悉MySQL的语法及相关操作,完全可以用MySQL去存这个级别的数据量,就相当于你存储了一个大型Excel表格。

数据结构

如果数据结构是不一致的,即不会有些行缺失某些字段,有些行又多出一些字段,那么我建议使用MongoDB做存储处理。因为Mongo没有schema的严格定义,是json格式存取。如果爬虫的字段会经常变化,字段定义可能会变更,Mongo对这方面很宽松,很容易兼

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值