爬虫数据的存储小总结

本文总结了爬虫数据的存储方式,包括json、csv文件处理,以及MySQL和MongoDB数据库操作。讲解了json的格式、Python与json的转换,csv文件的读写,MySQL的安装、连接、数据操作,MongoDB的基本概念和使用,以及通过Python操作MongoDB的示例。
摘要由CSDN通过智能技术生成

引言

在爬取了网页并提取出了我们需要的数据后,我们还需要把精心提取出的数据保存下来,如果是保存为文件的话,常用的有json文件,csv文件等,如果是存储到数据库,常用的有mongoDB,mysql等。

在这一节,就整理整理如何把数据存储到各种形式的文件以及数据库中。

json文件处理:

什么是json:

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见:https://baike.baidu.com/item/JSON/2462549?fr=aladdin

json的格式

类似字典的形式
{
   
    "author":"ChanZany",
    "content":"爬虫数据的存储"
}
字典加列表的形式
{
   
    "author":"ChanZany",
    "content":[
        "json",
        "csv",
        "excel",
        "mongodb",
        "mysql"
    ]
}
字典嵌套字典的形式
{
   
    "author":"ChanZany",
    "content":[
        {
   
            "keyword1":"json"
        },
        {
   
            "keyword2":"excel"
        },
        {
   
            "keyword3":"mongodb"
        }
    ]
}

其余复杂的类型不再一一列举,本质上都是基本类型互相套来套去

JSON支持数据格式:

  1. 对象(字典)。使用花括号。
  2. 数组(列表)。使用方括号。
  3. 整形、浮点型、布尔类型还有null类型。
  4. 字符串类型(字符串必须要用双引号,不能用单引号)。

多个数据之间使用逗号分开。
注意:json本质上就是一个字符串。

一个比较好用的格式化json数据的网站

python对象与json的互相转换

python内置了json模块来支持json格式的数据

包含了json的存储和读取,对象与json字符串的相互转换等函数

使用 JSON 函数需要导入 json 库:import json

函数 描述
json.dumps 将 Python 对象编码成 JSON 字符串
json.loads 将已编码的 JSON 字符串解码为 Python 对象
字典和列表转JSON:

json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding="utf-8", default=None, sort_keys=False, **kw) 函数可以将字典和列表对象转为json字符串,即str对象。

相关参数:

参数名 描述
ensure_ascii=True json.dumps序列化时对中文默认使用的ascii编码。输出真正的中文需要指定ensure_ascii=False
skipkeys=False 在encoding过程中,dict对象的key只可以是string对象,如果是其他类型,那么在编码过程中就会抛出ValueError的异常。skipkeys可以跳过那些非string对象当作key的处理.但是不能处理自定义的对象,所以很鸡肋欸有没有
separators separators参数的作用是去掉, :后面的空格,在传输数据的过程中,越精简越好,冗余的东西全部去掉。
indent indent参数根据数据格式缩进显示,读起来更加清晰, indent的值,代表缩进空格式
sort_keys sort_keys可以告诉编码器按照字典key排序(a到z)输出。

code:

import json

account_numbers = [
    {
   
        "username":"chanzany",
        "password":"lifeisshort"
    },
    {
   
        "username":"laowang",
        "password":"showmethecode"
    }
]

json_str = json.dumps(account_numbers)
print(json_str)
print(type(json_str))

>>[{
   "username": "chanzany", "password": "lifeisshort"}, {
   "username": "laowang", "password": "showmethecode"}]
>><class 'str'>

因为jsondump或dumps的时候,只能存放ascii的字符,因此会将中文进行转义,这时候我们可以使用ensure_ascii=False关闭这个特性。
Python中。只有基本数据类型才能转换成JSON格式的字符串。也即:intfloatstrlistdicttuple

将一个json字符串loads成Python对象:

json.loads(s[, encoding[, cls[, object_hook[, parse_float[, parse_int[, parse_constant[, object_pairs_hook[, **kw]]]]]]]])

json_str = '[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9.9}]'
books = json.loads(json_str,encoding='utf-8')
print(type(books))
print(books)

json数据的IO

函数 描述
json.dump(json_obj,file_object) 将json对象写入文件(对象)中
`json.load(file_object)->python_obj 从文件中读取json字符串
将json数据直接dump到文件中:

json模块中除了dumps函数,还有一个dump函数,这个函数可以传入一个文件指针,直接将字符串dump到文件中。示例代码如下:

account_numbers = [
    {
   
        "username":"张三",
        "password":"lifeisshort"
    },
    {
   
        "username":"老万",
        "password":"showmethecode"
    }
]
# 需要在创建文件对象的时候指定编码为utf-8,以及在dump函数中添加ensure_ascii=False来解决中文问题
with open('acount2.json','w',encoding='utf-8') as fp:
    json.dump(account_numbers,fp,ensure_ascii=False)
直接从文件中读取json:
import json
with open('a.json','r',encoding='utf-8') as fp:
  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值