之前总会时不时的进行一些数据清洗,一旦涉及到清洗不可避免的就需要涉及到数据的存储,多数情况下是将数据存储到excel表格中,为了方便自己日后翻看,便有了这篇文章
在写之前先声明一下,本文章是基于openpyxl的
依赖安装
pip install openpyxl
操作讲解
创建/打开工作簿
直接创建表格
from openpyxl import *
wb = Workbook() # 实例化一个工作簿函数
加载本地已存在的表格
from openpyxl import *
wb = load_workbook("xxxx") # xxxx可以替换为任意表格名
load_workbook
可选参数
data_only
带有公式的单元格是否具有公式(默认具有)或上一次 Excel 读取工作表时存储的值。keep_vba
设置是否保留任何 Visual Basic 元素(默认保留),可选择保留但是不支持编辑。
选择工作表:
工作簿创建时总是会默认创建一个名为 Sheet 工作表
ws = wb.active # 获取当前活跃的工作表
也可以通过Workbook.create_sheet()
创建工作表并命名,若不设置名字和参数,默认命名为,sheet1,sheet2……,创建的工作表默认插入到最后的位置:
ws = wb.create_sheet() # 默认创建名为sheet的工作表
ws1 = wb.create_sheet("Mysheet") # 命名为Mysheet
ws2 = wb.create_sheet("Mysheet1", 0) # 新建Mysheet1工作表插入到第一个位置
ws3 = wb.create_sheet("Mysheet2", -1) # 新建Mysheet2工作表插入到倒数第二个的位置
ws.title = "first" # 将ws工作表重命名为first
获取工作簿下的所有工作表
# 通过属性获取
wb.sheetnames
# 通过循环方式获取
for sheet in wb:
print(sheet.title)
在单个工作簿中创建工作表的副本:
source = wb.activate # 获取活跃的工作表
target = wb.copy_worksheet(source) # 上述获取的工作表为其创建副本
访问工作表单元及其值
访问工作表某个单元
c = ws['C1'] # 访问 C1 单元格
ws['C1']= 4 # 对 C1 单元格进行赋值
c.value # 访问 C1 单元格的值,同ws['C1'].value
在内存中创建工作表时,它不包含任何单元格,单元格都是首次访问时自动创建的。
下面的代码与上面的代码作用相同
d = ws.cell(row=1, column = 3, value = 4) # 对C1单元格赋值为4
ws['C1'].value # 访问单元格的值
访问多个单元格
通过切片访问范围为A1到C2的所有单元格:
cell_range = ws['A1':'C2']
行和列的范围可以类似地获得:
# 访问列
colC = ws['C']
col_range = ws['C:D']
# 访问行
row10 = ws[10]
row_range = ws[5:10]
使用Worksheet.iter_rows()
返回行:
for row in ws.iter_rows(min_row=1, max_col=3, max_row=2):
for cell_row in row:
print(cell_row)
使用Worksheet.iter_cols()
返回列:
for col in ws.iter_cols(min_row=1, max_col=3, max_row=2):
for cell_col in col:
print(cell_col)
使用Worksheet.columns
属性遍历工作表的所有行和列。出于性能原因,该属性在只读模式下不可用:
tuple(ws.columns)
访问值
只需要访问工作表中的值,可以使用Worksheet.values
属性。遍历工作表中的所有行,但仅返回单元格值:
for row in ws.values:
for value in row:
print(value)
Worksheet.iter_rows()
和 Worksheet.iter_cols()
可以用 values_only
参数,只返回单元格的值:
for row in ws.iter_rows(min_row=1, max_col=3, max_row=2, values_only=True):
print(row)
保存工作表
将之前创建的工作簿保存格式为xlsx的文件,若已存在则覆盖 :
ws.save("xxx.xlsx") # xxx.xlsx改为要保存的文件名