Python csv、excel 按列分表数据透视轴向旋转 pivot() pivot_table()

请一直在路上

已于 2022-09-27 16:49:19 修改

阅读量1.9k

点赞数

分类专栏： Python 数据分析文章标签： python 自动化

于 2022-04-04 18:27:33 首次发布

本文链接：https://blog.csdn.net/qq_35240689/article/details/123957718

版权

Python 数据分析专栏收录该内容

18 篇文章 5 订阅

订阅专栏

这段代码演示了如何利用Python的pandas库对CSV或Excel文件进行数据处理。首先，它按指定列对单个文件进行分组，将结果保存到新的Excel文件中。然后，它遍历目录下的所有CSV文件，同样进行按列分组操作。最后，增加了数据透视功能，根据'City'和'Date'对数据进行透视分析。整个过程涉及文件读取、数据分组、数据透视和Excel写入。

摘要由CSDN通过智能技术生成

csv 文件按列分表、数据透视

1. 单个 excel （或csv）文件按列分表


import pandas as pd
import xlsxwriter
import glob

input_path = "/Users/libin/Desktop/libin/"
ouput_path = "/Users/libin/Desktop/libin/"
file_name = "test.csv"

# 读取 csv 数据  
# skiprows 忽略前4行 
# nrows 只读取多少行
# 将 read_csv 替换成 read_excel 就能读取 excel 文件了
df = pd.read_csv(input_path + file_name, skiprows = 4, nrows = 1000)
# 读取数据 excel 文件
# df = pd.read_excel("/Users/libin/Desktop/libin/bbb.xlsx")


# file_name[:-4] 字符串截取，去掉后4位（文件类型）
writer = pd.ExcelWriter(ouput_path + file_name[:-4] + '.xlsx',engine='xlsxwriter')
for name_sheet,group_sheet in df.groupby("要分组的列名"):
	group_sheet.to_excel(writer, sheet_name = name_sheet, index = False)

writer.save()

2. 目录下所有的文件按列分表

import pandas as pd
import xlsxwriter
import glob

input_path = "/Users/libin/Desktop/libin/"
ouput_path = "/Users/libin/Desktop/libin/"

# 建立循环对于每个文件调用excel_to_csv()
for file_name in glob.glob("*.csv"):
    # 读取数据  skiprows 忽略前4行  nrows 只读取多少行
    df = pd.read_csv(input_path + file_name, skiprows = 4 )

    # file_name[:-4] 字符串截取，去掉后4位（文件类型）
    writer = pd.ExcelWriter(ouput_path + file_name[:-4] + '.xlsx',engine='xlsxwriter')

    for name_sheet,group_sheet in df.groupby("要分组的列名"):
        group_sheet.to_excel(writer, sheet_name = name_sheet, index = False)

writer.save()

3. 目录下所有的文件按列分表，并创建数据透视

import pandas as pd
import numpy as np
import xlsxwriter
import glob

input_path = "/Users/libin/Desktop/libin/"
ouput_path = "/Users/libin/Desktop/libin/"

# 建立循环对于每个文件调用excel_to_csv()
for file_name in glob.glob("*.csv"):
    # 读取数据  skiprows 忽略前4行
    df = pd.read_csv(input_path + file_name, skiprows = 4 )

    # file_name[:-4] 字符串截取，去掉后4位（文件类型）
    writer = pd.ExcelWriter(ouput_path + file_name[:-4] + '.xlsx',engine='xlsxwriter')
	# index 必选参数，用来指定行索引。如果用数组做行索引，数据必须等长。
    # columns 必选参数，用来指定列索引。
    # dropna 如果整行都为NA值，则进行丢弃，默认丢弃。
    for name_sheet,group_sheet in df.groupby("Specie"):
        df_table = group_sheet.pivot_table(
        index=['City'],
        columns=['Date'],
        dropna = False, 
        values=['median'])
        df_table.to_excel(writer, sheet_name = name_sheet)

writer.save()