速学Pandas，10分钟搞定，人人都能掌握的分析方法

大话数据分析

已于 2023-12-15 18:59:06 修改

阅读量840

点赞数 23

分类专栏： Pandas 文章标签：信息可视化数据分析 pandas

于 2023-12-05 17:12:11 首次发布

本文链接：https://blog.csdn.net/weixin_42684533/article/details/134812394

版权

Pandas 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

毋庸置疑，pandas仍然是数据处理和数据分析最常用的包，其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱，极大提高了数据处理的效率。

本文作者将带领大家速学pandas，内容包含安装pandas、数据导入、数据预览、数据排序、辅助运算、分组聚合、数据可视化、数据导出，熟练掌握后可深入学习其他知识点，下面一起来学习。

示例工具：anconda3.7
本文讲解内容：pandas包的使用
适用范围：Python数据处理和分析

安装pandas

使用pandas的功能，需要下载pandas包，Anaconda中打开jupyterNotebook，在代码行中输入如下命令进行下载。

#下载包 
!pip install pandas

如网络慢，无法下载，可指定国内源快速下载安装，就是在下载包的命令后加-i，然后添加具体的镜像网址。

#添加镜像网址下载 
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装pands包以后，引入pandas包，起一个别名叫pd，同时查看pandas包的版本，打印结果是1.1.5版本。

# 引入 Pandas库，按惯例起别名pd 
import pandas as pd pd.__version__#打印版本号

数据导入

使用pd.read_excel命令导入本节所使用的数据，数据为某次入学测试成绩，有姓名、班级、总分数等字段，本文基于此分析。

df=pd.read_excel(r'D:\学习\2020年学生测试总成绩.xlsx') 
df

数据预览

拿到一组数据以后，我们首先对数据做个预览，看看数据的基本特征，df.head()可以预览前5行数据，df.tail()可以预览后5行数据。

df.head() # 查看头部5条 
df.tail() # 查看尾部5条

df.sample(5)随机查看5条数据，括号里的数字可变为其他数字，表示要查看的行数。

df.sample(5) # 随机查看5条

使用df.shape命令查看数据包含的行数和列数，打印结果为(357, 5)，表示数据有357行，5列。

df.shape

(357, 5)

使用http://df.info()命令查看查看索引、数据类型和内存信息，该数据包含姓名、班级等5个字段，其中，除姓名是字符型，其他均为数值型。

df.info()

对数据做基本的描述统计可以有以下特征：

数据包含1班到11班共计11个班级的总成绩，有357名学生；
平均分359分、最低分18分、最高分621分、中位数是354分、上四分位数是406分、下四分位数是311分；
从学校排名来看，中位数是179名，上四分位数是268名、下四分位数是90名；

df.describe().round(0)

使用df.dtypes命令查看数据类型，结果与上面一致，除姓名是字符型，其他均为数值型，字符型只能计数，而数值型可以计数和求和。

df.dtypes

df.axes用来显示数据行和列名，当数据字段比较多的时候，使用此命令对于数据做一个预览。

df.axes

除此之外，还可以使用df.columns命令对数据字段做预览，打印结果与上面一致，包含姓名、班级等5个字段。

df.columns

数据筛选

拿到一组数据，并不是所有的数据都能符合自己的数据分析需要，就要对数据做个筛选，比如筛选出班级中包含1班的姓名和总分数两个字段，可以使用[ ]进行筛选。

df_calss_one=df[df['班级']==1][['姓名','总分数']] 
df_calss_one.head()

如果要添加多条件进行筛选，可以使用&符号添加多个筛选条件，比如这里同时筛选班级为1班且总分数大于406分的人，就可以分别作为筛选条件，然后使用&符号连接起来。

df_calss_one_406=df[(df['班级']==1)&(df['总分数']>406)] 
df_calss_one_406

数据排序

使用sort_values函数排序，by后面跟排序的字段，默认为升序排列，ascending=False可将字段设为降序排列。

df.sort_values(by='总分数',ascending=False)

如果需要自定义排序，可以将多个字段传入列表[ ]中，ascending用来自定义字段是升序还是降序排列。

df.sort_values(['总分数','班级'],ascending=[False,True])

辅助运算

如果要根据原始数据做一个辅助列进行计算，比如这里求总分数的平均值，使用assign函数添加一个平均值字段进行计算，得出平均值为359分。

df.assign(平均值=df['总分数'].mean())

如果需要对总分数按照分数段分组，我们同样可以添加辅助列，比如这里使用loc函数定位出具体数据，这部分定位出来的数据被赋值具体的分数段，由此得到不同的分数段分组。

df.loc[df['总分数']>=600,'总分评级']='600分以上' 
df.loc[df['总分数']<600,'总分评级']='500分-600分' 
df.loc[df['总分数']<500,'总分评级']='400分-500分' 
df.loc[df['总分数']<400,'总分评级']='300分-400分' 
df.loc[df['总分数']<300,'总分评级']='300分以下'  

df

分组聚合

分组聚合是数据处理中最常用的一个功能，使用groupby函数，括号内跟分组的对象，中括号中加运算对象，比如这里计算不同分数段的学生人数，由数据可得出分数段在300分到400分的人数最多，有190人。

df.groupby('总分评级')['姓名'].count().reset_index()

如果要对同一个字段做不同的运算，可以使用.agg函数，中括号中可以添加具体需要运算的方法，比如这里分别对每个班的总分数求平均值、最大值和最小值，以1班为例，平均分是439.6分，最高分是582.5分，最小分是324.5分。

df.groupby('班级')['总分数'].agg(['mean','max','min']) .reset_index()

除此之外使用describe()函数可以快速得出描述统计结果。

df.groupby('班级')['总分数'].describe()

如果要对不同字段做不同的运算，比如这里求不同班级的人数和各班的平均分，还是使用.agg函数，但是需要使用一个字典来定义不同的字段使用不同的运算方式，对姓名计数，对总分数求平均，以1班为例共有40人，平均分为439.6分。

df.groupby('班级').agg({'姓名':'count',#班级人数 
                        '总分数': 'mean', # 平均分
                        }).reset_index()

若要将行列转置，使用.T函数即可迅速转置。

df.groupby('班级')['总分数'].max().reset_index().T

数据可视化

使用图表可以更高效地传达数据信息，如下使用plot.bar() 函数做每个班级最高分的柱形图，可以看出2班的最高分在各班级中最高，10班的最高分在各班级中最低。

df.groupby('班级')['总分数'].max().plot.bar() # 柱状图

同样，使用plot.barh()可以做出条形图。

df.groupby('班级')['总分数'].max().sort_values().plot.barh() # 条形图

使用plot.pie函数可以看每个班级人数在全校中的占比，其中，autopct用来设置数据标签，figsize用来设置图图片的大小，由图可以看出2班和3班的人数占比最多，达11.5%，7班的人数占比最少，仅7.6%。

df.groupby('班级')['姓名'].count().plot.pie(autopct = '%3.1f%%',figsize=(6, 6))

数据导出

将数据分析的数据结果导出到Excel表中，可以使用to_excel函数，如果需要导出到不同的sheet中，需要提前声明一个writer对象，该对象内含导出的路径以及表格名称，将需要导出的数据赋值给变量后即可导出到本地。
如下我们将各分数段学生人数统计、各班级总分数描述统计两个统计结果分别导出到两个sheet表中，index=False表明不显示行索引。

#声明一个对象 
writer=pd.ExcelWriter(r'D:\系统桌面(勿删)\Desktop\2020年学生测试总成绩_分析结果.xlsx',engine='xlsxwriter') 

#变量赋值 
out_table1=df.groupby('总分评级')['姓名'].count().reset_index() 
out_table2=df.groupby('班级')['总分数'].agg(['mean','max','min']).reset_index() 

#数据导出 
out_table1.to_excel(writer,sheet_name='各分数段学生人数统计',index=False) 
out_table2.to_excel(writer,sheet_name='各班级总分数描述统计',index=False) 

#对象保存 
writer.save() 

#对象关闭 
writer.close()