【Python】Python存储爬虫抓取数据的5种方式比较

本文探讨了Python爬虫抓取数据后的五种存储方式:json文件、excel、sqlite、mysql和mongodb,并分析了各自适用场景。对于小数据量,推荐json文件;适合表格形式的数据则可选择excel;sqlite适合数据量较大但不需多进程读写;大数据量或远程存储选用mysql;而mongodb因其灵活的文档存储方式,适合复杂数据。最后,不建议使用redis存储爬虫数据,图片数据可存储在本地或mongodb。
摘要由CSDN通过智能技术生成

爬虫抓取数据后,怎样存储才是最好的方式呢?先来盘点一下可以使用的存储方式

以json格式存储到文本文件
存储到excel
存储到sqlite
存储到mysql数据库
存储到mongodb
1、以json格式存储到文本文件

这是最简单,最方便,最使用的存储方式,json格式保证你在打开文件时,可以直观的检查所存储的数据,一条数据存储一行,这种方式适用于爬取数据量比较小的情况,后续的读取分析也是很方便的。

2、存储到excel

如果爬取的数据很容易被整理成表格的形式,那么存储到excel是一个比较不错的选择,打开excel后,对数据的观察更加方便,excel也可以做一些简单的操作,写excel可以使用xlwt这个库,读取excel可以使用xlrd,同方法1一样,存储到excel里的数据不宜过多,此外,如果你是多线程爬取,不可能用多线程去写excel,这是一个限制。

3、存储到sqlite

sqlite无需安装,是零配置数据库,这一点相比于mysql要轻便太多了,语法方面,只要你会mysql,操作sqlite就没有问题。当爬虫数据量很大时,需要持久化存储,而你又懒得安装mysql时,sqlite绝对是最佳选择,不多呢,它不支持多进程读写,因此不适合多进程爬虫。

4、存储到mysql数据库

mysql可以远程访问,而sqlite不可以,这意味着你可以将数据存储到远程服务器主机上,当数据量非常大时,自然要选择mysql而不是sqlite,但不论是mysql还是sqlite&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李老师搞技术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值