【数据分析】Python Pandas 透视表使用方式和常见问题

匠心笔记

已于 2024-04-11 18:06:53 修改

阅读量508

点赞数 2

分类专栏： Python 数据分析自学笔记文章标签：数据分析 python pandas

于 2024-03-05 15:57:14 首次发布

本文链接：https://blog.csdn.net/lelertop/article/details/136481161

版权

Python 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

数据分析

3 篇文章 0 订阅

订阅专栏

自学笔记

1 篇文章 0 订阅

订阅专栏

本文详细介绍了如何在Python中使用Pandas处理Excel文件，包括读取异常、转置数据、数据类型检查、运行时间测量、read_excel参数、透视表操作、空值处理和数据格式化等，以及遇到的常见问题和初步解决方案。

摘要由CSDN通过智能技术生成

Pandas 透视表使用方式和常见问题

环境:
Python 3.11.8
pandas 2.2.1

1. pandas 读取非常规软件生成的xlsx文件报错忽略

如通过语言的某些插件生成的xlsx文件.

报错提示

FutureWarning: The provided callable <function sum at 0x0000022A2D552200> is currently using DataFrameGroupBy
.sum. In a future version of pandas, the provided callable will be used directly. To keep current behavior pass the string "sum" instead.

解决

import warnings
warnings.filterwarnings('ignore')

2. 转置

df = pd.read_excel(‘test.xlsx’).transpose()

3. 转为dict

dict = pd.read_excel(‘test.xlsx’).to_dict(‘records’)

4. 判断是否为数值

if type(t) == int or type(t) == float:

5. 计算运行时长

st = time.time()
print('开始处理')
# do something.
print('处理完成')
print(f'总耗时:{time.time() - st:.4f} s')
input()

6. read_excel 的常用参数

# 引擎
engine='openpyxl', 
# 跳过多少行
skiprows=1, 
# na值匹配
na_filter=False, 
# 保留那几列
usecols=['地市', '操作']

7. 对某一列使用某个函数

df[‘列名’].map(getLX)

8. 取某一列满足某个条件的全部列

df = df[df[‘列名’] != ‘’]

9. 透视常用说明

透视完后,列会被设置为索引

df2 = pd.pivot_table(df,
# 透视的值
values='金额',
# 列
index=['地市'],
# 行
columns=['类型'],
# 聚合方法
aggfunc=np.sum,
# 空值填充值
fill_value=0,
# 合计名
margins_name='合计',
# 是否启用合计功能
margins=True)

特别注意: index 中可以传入数组,当数组中的某个值为空时,将不会被统计出来,比如:
index = [‘地市’] 时, 如果地市列存在空值时, 空值的数量将不会被统计出来.

TODO

解决方案: 待研究 .

初步解决方案是: 提前将空值设置为某个值,甚至为空字符串也可以.

10. 重新设置索引

df2.reset_index(inplace=True)

11. 对每一列应用函数

# 保留两位小数(会四舍五入)
df2['其他率'] = df2['其他率'].apply(lambda x: "%.2f" % x)

12. 列按照数组重新排序

df2 = df2[[‘地市’, ‘其他率’]]

13. 列 NaN 填充

result = result.fillna({‘其他’: 0,‘其他率’: 0})

匠心笔记

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【数据分析】Python Pandas 透视表使用方式 和 常见问题

Pandas 透视表使用方式 和 常见问题

1. pandas 读取非常规软件生成的xlsx文件报错忽略

报错提示

解决

2. 转置

3. 转为dict

4. 判断是否为数值

5. 计算运行时长

6. read_excel 的常用参数

7. 对某一列使用某个函数

8. 取某一列满足某个条件的 全部列

9. 透视 常用说明

TODO

10. 重新设置 索引

11. 对每一列应用 函数

12. 列 按照 数组重新排序

13. 列 NaN 填充

【数据分析】Python Pandas 透视表使用方式和常见问题

Pandas 透视表使用方式和常见问题

8. 取某一列满足某个条件的全部列

9. 透视常用说明

10. 重新设置索引

11. 对每一列应用函数

12. 列按照数组重新排序