数据(json,mysql,mongodb,csv,excel)的存储与读取，连接等操作

最新推荐文章于 2024-04-30 17:02:59 发布

mendes1998

最新推荐文章于 2024-04-30 17:02:59 发布

阅读量350

点赞数

文章标签： mysql mongodb json sql 数据库

本文链接：https://blog.csdn.net/weixin_43173444/article/details/113336356

版权

json文件处理：

什么是json：

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。更多解释请见：https://baike.baidu.com/item/JSON/2462549?fr=aladdin

JSON支持数据格式：

对象（字典）。使用花括号。
数组（列表）。使用方括号。
整形、浮点型、布尔类型还有null类型。
字符串类型（字符串必须要用双引号，不能用单引号）。

多个数据之间使用逗号分开。
注意：json本质上就是一个字符串。

字典和列表转JSON：

import json

books = [
    {
        'title': '钢铁是怎样练成的',
        'price': 9.8
    },
    {
        'title': '红楼梦',
        'price': 9.9
    }
]

json_str = json.dumps(books,ensure_ascii=False)
print(json_str)

因为json在dump的时候，只能存放ascii的字符，因此会将中文进行转义，这时候我们可以使用ensure_ascii=False关闭这个特性。
在Python中。只有基本数据类型才能转换成JSON格式的字符串。也即：int、float、str、list、dict、tuple。

将json数据直接`dump`到文件中：

json模块中除了dumps函数，还有一个dump函数，这个函数可以传入一个文件指针，直接将字符串dump到文件中。示例代码如下：

books = [
    {
        'title': '钢铁是怎样练成的',
        'price': 9.8
    },
    {
        'title': '红楼梦',
        'price': 9.9
    }
]
with open('a.json','w') as fp:
    json.dump(books,fp)

将一个json字符串load成Python对象：

json_str = '[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9.9}]'
books = json.loads(json_str,encoding='utf-8')  #将json字符串序列化，也就是变得好看点
											json.loads()作用是把str转化为字典
print(type(books))
print(books)

直接从文件中读取json：

import json
with open('a.json','r',encoding='utf-8') as fp:
    json_str = json.load(fp)
    print(json_str)

csv文件处理

读取csv文件：

import csv

with open('stock.csv','r') as fp:
    reader = csv.reader(fp)
    titles = next(reader)
    for x in reader:
        print(x)

这样操作，以后获取数据的时候，就要通过下表来获取数据。如果想要在获取数据的时候通过标题来获取。那么可以使用DictReader。示例代码如下：

import csv

with open('stock.csv','r') as fp:
    reader = csv.DictReader(fp)
    for x in reader:
        print(x['turnoverVol'])

写入数据到csv文件：

写入数据到csv文件，需要创建一个writer对象，主要用到两个方法。一个是writerow，这个是写入一行。一个是writerows，这个是写入多行。示例代码如下：

import csv

headers = ['name','age','classroom']
values = [
    ('qf',18,'111'),
    ('wena',20,'222'),
    ('bbc',21,'111')
]
with open('test.csv','w',newline='') as fp:
    writer = csv.writer(fp)
    writer.writerow(headers)
    writer.writerows(values)

也可以使用字典的方式把数据写入进去。这时候就需要使用DictWriter了。示例代码如下：

import csv

headers = ['name','age','classroom']
values = [
    {"name":'wenn',"age":20,"classroom":'222'},
    {"name":'abc',"age":30,"classroom":'333'}
]
with open('test.csv','w',newline='') as fp:
    writer = csv.DictWriter(fp,headers)
    writer = csv.writeheader()
    writer.writerow({'name':'qf',"age":18,"classroom":'111'})
    writer.writerows(values)

Excel文件处理

在爬虫开发中，我们主要关注Excel文件的读写，不会过多关心Excel中的一些样式。如果想要读写Excel文件，需要借助到两个库xlrd和xlwt，其中xlrd是用于读的，xlwt是用于写的，安装命令如下：

pip install xlrd
pip install xlwt

读取Excel文件：

import xlrd

workbook = xlrd.open_workbook("成绩表.xlsx")
sheet_names = workbook.sheet_names()
print(sheet_names) #打印所有的sheet的名称

获取`Sheet`：

一个Excel中可能有多个Sheet，那么可以通过以下方法来获取想要的Sheet信息：

sheet_names：获取所有的sheet的名字。
sheet_by_index：根据索引获取sheet对象。
sheet_by_name：根据名字获取sheet对象。
sheets：获取所有的sheet对象。
sheet.nrows：这个sheet中的行数。
sheet.ncols：这个sheet中的列数。

示例代码如下：

import xlrd

workbook = xlrd.open_workbook("成绩表.xlsx")
sheet_names = workbook.sheet_names()
print(sheet_names) #打印所有的sheet的名称

# 根据索引获取sheet
sheet = workbook.sheet_by_index(0)
print(sheet.name)

# 根据名称获取sheet
sheet = workbook.sheet_by_name("1班成绩")
print(sheet.name)

# 获取所有的sheet对象
sheets = workbook.sheets()
for sheet in sheets:
    print(sheet.name)

# 获取这个sheet中的行数和列数
nrows = sheet.nrows
ncols = sheet.ncols

获取Cell及其属性：

每个Cell代表的是表格中的一格。以下方法可以方便获取想要的cell：

sheet.cell(row,col)：获取指定行和列的cell对象。
sheet.row_slice(row,start_col,end_col)：获取指定行的某几列的cell对象。
sheet.col_slice(col,start_row,end_row)：获取指定列的某几行的cell对象。
sheet.cell_value(row,col)：获取指定行和列的值。
sheet.row_values(row,start_col,end_col)：获取指定行的某几列的值。
sheet.col_values(col,start_row,end_row)：获取指定列的某几行的值。

示例代码如下：

sheet = workbook.sheet_by_index(0)

# 使用cell方法获取指定的cell对象
for col in range(sheet.ncols):
    for row in range(sheet.nrows):
        print(sheet.cell(row,col))

# 使用row_slice获取第0行的1-2列的cell对象
cells = sheet.row_slice(0,1,3)
# 使用col_slice获取第0列的1-2行的cell对象
cells = sheet.col_slice(0,1,3)

另外在Cell上面也有一些常用的属性：

cell.value：这个cell里面的值。
cell.ctype：这个cell的数据类型。

Cell的数据类型：

xlrd.XL_CELL_TEXT（Text）：文本类型。
xlrd.XL_CELL_NUMBER（Number）：数值类型。
xlrd.XL_CELL_DATE（Date）：日期时间类型。
xlrd.XL_CELL_BOOLEAN（Bool）：布尔类型。
xlrd.XL_CELL_BLANK：空白数据类型。

写入Excel：

写入Excel步骤如下：

导入xlwt模块。
创建一个Workbook对象。
创建一个Sheet对象。
使用sheet.write(row,col,data)方法把数据写入到Sheet下指定行和列中。如果想要在原来workbook对象上添加新的cell，那么需要调用put_cell来添加。
保存成Excel文件。

示例代码如下：

import xlwt
import random

workbook = xlwt.Workbook(encoding='utf-8')
sheet = workbook.add_sheet("成绩表")
# 添加表头
fields = ['数学','英语','语文']
for index,field in enumerate(fields):
    sheet.write(0,index,field)

# 随机的添加成绩
for row in range(1,10):
    for col in range(3):
        grade = random.randint(0,100)
        sheet.write(row,col,grade)

workbook.save("abc.xls")

另外，如果想要在原来已经存在的Excel文件中添加新的行或者新的列，那么需要采用put_cell(row,col,type,value,xf_index)来添加进去，最后再放到xlwt创建的workbook中，然后再保存进去。示例代码如下：

import xlrd
import xlwt

workbook = xlrd.open_workbook("成绩表.xlsx")
rsheet = workbook.sheet_by_index(0)

# 添加总分成绩
rsheet.put_cell(0,4,xlrd.XL_CELL_TEXT,"总分",None)
for row in range(1,rsheet.nrows):
    grade = sum(rsheet.row_values(row,1,4))
    rsheet.put_cell(row,4,xlrd.XL_CELL_NUMBER,grade,None)

# 添加每个科目的平均成绩
total_rows = rsheet.nrows
total_cols = rsheet.ncols
for col in range(1,total_cols):
    grades = rsheet.col_values(col,1,total_rows)
    avg_grade = sum(grades)/len(grades)
    print(type(avg_grade))
    rsheet.put_cell(total_rows,col,xlrd.XL_CELL_NUMBER,avg_grade,None)

# 重新写入一个新的excel文件数据
wwb = xlwt.Workbook(encoding="utf-8")
wsheet = wwb.add_sheet("1班学生成绩")
for row in range(rsheet.nrows):
    for col in range(rsheet.ncols):
        wsheet.write(row,col,rsheet.cell_value(row,col))

wwb.save("abc.xls")

MySQL数据库操作

安装mysql：

在官网：https://dev.mysql.com/downloads/windows/installer/5.7.html
如果提示没有.NET Framework框架。那么就在提示框中找到下载链接，下载一个就可以了。
如果提示没有Microsoft Virtual C++ x64(x86)，那么百度或者谷歌这个软件安装即可。
如果没有找到。那么私聊我。

navicat：

navicat是一个操作mysql数据库非常方便的软件。使用他操作数据库，就跟使用excel操作数据是一样的。

安装驱动程序：

Python要想操作MySQL。必须要有一个中间件，或者叫做驱动程序。驱动程序有很多。比如有mysqldb、mysqlclient、pymysql等。在这里，我们选择用pymysql。安装方式也是非常简单，通过命令pip install pymysql即可安装。

数据库连接：

数据库连接之前。首先先确认以下工作完成，这里我们以一个pymysql_test数据库.以下将介绍连接mysql的示例代码：

    import pymysql

    db = pymysql.connect(
        host="127.0.0.1",
        user='root',
        password='root',
        database='pymysql_test',
        port=3306
    )
    cursor = db.cursor()
    cursor.execute("select 1")
    data = cursor.fetchone()
    print(data)
    db.close()

插入数据：

import pymysql

db = pymysql.connect(
    host="127.0.0.1",
    user='root',
    password='root',
    database='pymysql_test',
    port=3306
)
cursor = db.cursor()
sql = """
insert into user(
    id,username,gender,age,password
  ) 
  values(null,'abc',1,18,'111111');
"""
cursor.execute(sql)
db.commit()
db.close()

如果在数据还不能保证的情况下，可以使用以下方式来插入数据：

sql = """
insert into user(
    id,username,gender,age,password
  ) 
  values(null,%s,%s,%s,%s);
"""

cursor.execute(sql,('spider',1,20,'222222'))

查找数据：

使用pymysql查询数据。可以使用fetch*方法。

fetchone()：这个方法每次之获取一条数据。
fetchall()：这个方法接收全部的返回结果。
fetchmany(size)：可以获取指定条数的数据。
示例代码如下：

cursor = db.cursor()

sql = """
select * from user
"""

cursor.execute(sql)
while True:
    result = cursor.fetchone()
    if not result:
        break
    print(result)
db.close()

或者是直接使用fetchall，一次性可以把所有满足条件的数据都取出来：

cursor = db.cursor()

sql = """
select * from user
"""

cursor.execute(sql)
results = cursor.fetchall()
for result in results:
    print(result)
db.close()

或者是使用fetchmany，指定获取多少条数据：

cursor = db.cursor()

sql = """
select * from user
"""

cursor.execute(sql)
results = cursor.fetchmany(1)
for result in results:
    print(result)
db.close()

删除数据：

cursor = db.cursor()

sql = """
delete from user where id=1
"""

cursor.execute(sql)
db.commit()
db.close()

更新数据：

conn = pymysql.connect(host='localhost',user='root',password='root',database='pymysql_demo',port=3306)
cursor = conn.cursor()

sql = """
update user set username='aaa' where id=1
"""
cursor.execute(sql)
conn.commit()

conn.close()

Python操作`MongoDB`：

安装`pymongo`：

要用python操作mongodb，必须下载一个驱动程序，这个驱动程序就是pymongo：

pip install pymongo

连接`MongoDB`：

import pymongo
# 获取连接的对象
client = pymongo.MongoClient('127.0.0.1',port=27017)
# 获取数据库
db = client.zhihu
# 获取集合（表）
collection = db.qa
# 插入一条数据到集合中
collection.insert_one({
    "username":"abc",
    "password":'hello'
})

数据类型：

类型	说明
Object ID	文档ID
String	字符串，最常用，必须是有效的UTF-8
Boolean	存储一个布尔值，true或false
Integer	整数可以是32位或64位，这取决于服务器
Double	存储浮点值
Arrays	数组或列表，多个值存储到一个键
Object	用于嵌入式的文档，即一个值为一个文档
Null	存储Null值
Timestamp	时间戳，表示从1970-1-1到现在的总秒数
Date	存储当前日期或时间的UNIX时间格式

操作`MongoDB`：

操作MongoDB的主要方法如下：

insert_one

：加入一条文档数据到集合中。示例代码如下：

 collection.insert_one({
     "username":"abc",
     "password":'hello'
 })

insert_many

：加入多条文档数据到集合中。

 collection.insert_many([
     {
         "username":'abc',
         'password':'111111'
     },
     {
         "username":'bbb',
         'password':'222222'
     },
 ])

find_one

：查找一条文档对象。

 result = collection.find_one()
 print(result)
 # 或者是指定条件
 result = collection.find_one({"username":"abc"})
 print(result)

update_one

：更新一条文档对象。

 collection.update_one({"username":"abc"},{"$set":{"username":"aaa"}})

update_many

：更新多条文档对象。

 collection.update_many({"username":"abc"},{"$set":{"username":"aaa"}})

delete_one

：删除一条文档对象。

 collection.delete_one({"username":"abc"})

delete_many

：删除多条文档对象。

 collection.delete_one({"username":"abc"})

mendes1998

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
数据(json,mysql,mongodb,csv,excel)的存储与读取，连接等操作

json文件处理：什么是json：JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。更多解释请见：https://baike.baidu.com/item/JSON/2462549?fr=aladd
复制链接

扫一扫