pandas模块总结复习

最新推荐文章于 2022-10-21 18:12:36 发布

cxnie

最新推荐文章于 2022-10-21 18:12:36 发布

阅读量171

点赞数

分类专栏：学习库文章标签： python pandas

原文链接：https://yiyele.blog.csdn.net/article/details/80605909

版权

学习库专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了pandas库在数据处理中的应用，包括数据查看、清洗、合并、索引设置、数据提取和汇总等核心功能。通过实例展示了如何利用pandas进行数据操作，如填充空值、更改数据格式、数据合并、设置索引、提取数据等，旨在提高数据处理效率，减少对openpyxl的依赖。

摘要由CSDN通过智能技术生成

这次真的用到了pandas模块，因此在这里记录一下自己的理解，希望和大家一起学习。

前言

pandas库是一个非常强大的库，在没接触pandas库之前处理excel数据一直用openpyxl模块，代码很多，效率很低，因此这里详细记录pandas库，发誓往后尽量少用openpyxl模块。

提示：以下学习内容

一、pandas是什么？

pandas库在我的理解中是一个多维数据的强大处理器，但它是在numpy的基础之上建立的，因此我们在导入pandas库之前，需要先导入numpy数据库。pandas库中我用到的有一下几个：

1、数据基本信息查看：

数据维度查看（shape）、基本信息查看（info）、格式查看（dtype）、查看唯一值（unique）、查看列名（columns）、查看值（values）、查看前几行和后几行（head和tail）

2、数据清洗

填充0到空值（fillna(value=0));
平均值进行填充df[‘data’](fillna(df[‘data’].mean()));
清除空格df[‘data’].map(str.strip)
更改数据格式df[‘data’].astype(‘int’)
更改列名称df.rename(columns={‘old_name’, ‘new_name’})
数据替换df.replace(‘sh’，‘shanghai’)

3、数据表处理

merge:
匹配合并交集：pd.merge(df1, df2,how=‘inner’)
左边匹配：pd.merge(df1, df2,how=‘left’)
右边匹配：pd.merge(df1, df2,how=‘right’)
匹配并集：pd.merge(df1, df2,how=‘outer’)
追加：df1.append(df2)
join:
df1.join(df2, on=‘key’)

4、设置索引

设置id为索引 set.index(‘id’)
特定列进行排序 sort_values(by=[‘age’])
索引列进行排序 sort_index()
where设置显示内容，这个不太会
np.where(df_inner[‘price’] >3000,‘high’,‘low’)

5、数据提取

三个函数 loc、iloc、ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。
提取单行的数值 df.loc[3]
提取一定范围的行数值 df.iloc[0:5]
重设索引 df.set_index(‘data’)
提取前五个数据 df[:5]
提取指定区域内容 df.iloc[:2, :3]
提取单独位置的数据 df.iloc[[0, 2, 5], [3, 4]]
判断数值是否为250 df[2].isin([250])
ix用法 df_inner.ix[:‘2013-01-03’,:4] #2013-01-03号之前，前四列数据

6、数据汇总

对所有列进行数据汇总 df.groupby(‘data’).count()
对city字段进行id数据汇总 df.groupby(‘city’)[‘id’].count()
对两个字段进行id数据汇总df.groupby([‘city’, ‘size’])[‘id’].count()