Python3爬虫开发存储数据的几种必知必会

python存储数据简述

        在实际开发过程中,会遇到数据存储的问题,我们需要针对不同的项目背景和开发需求采用不同的存储方式,从而满足项目开发需求和提高我们学习和工作效率。


1. txt文件存储



2. csv文件

    csv(comma-separated values) -->逗号分隔值

    文件以纯文本形式存储表格数据(数字和文本),在windows下可以用excel打开,csv官方文档


    【Tips】: 如果出现编码错误,可以在open方法中添加encoding参数, 如:encoding="utf-8"

    【tips】: 在windows中,打开文件需要在open方法中添加newline='', 因为window中换行符是:\n\r。


3.  json文件

    json(JavaScript Object Notation), 是一种轻量级的数据交换格式。json的内容格式跟python中的字典和列表很相似。

    JSON的官方文档

    

    【tips】ensure_ascii = False --> 使用dumps将列表序列化并且转换为unicode编码


4. Mysql数据库

    python3中可以使用pymysql模块,菜鸟教程python3操作mysql

    优点:可以存储大量的数据, 结构化数据。

    

  

5. Redis数据库

    redis是一个key-value存储的Nosql数据库

    优点: 高性能,可用于作分布式爬虫。redis中文教程python操作redis



6. Mongodb数据库

    优点:和python的字典很吻合,便于使用分布式存储。pymongo官方文档

    

    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值