Python 数据分析(四):Pandas 进阶

1. 概述

我们在上一篇文章初识 Pandas中已经对 Pandas 作了一些基本介绍,本文我们进一步来学习 Pandas 的一些使用。

2. 缺失项

在现实中我们获取到的数据有时会存在缺失项问题,对于这样的数据,我们通常需要做一些基本处理,下面我们通过示例来看一下。

import numpy as npfrom pandas import Series, DataFrame
s = Series(['1', '2', np.nan, '3'])df = DataFrame([['1', '2'], ['3', np.nan], [np.nan, 4]])print(s)print(df)#  清除缺失项print(s.dropna())print(df.dropna())# 填充缺失项print(df.fillna('9'))print(df.fillna({0:'5', 1:'6'}))

3. 分组聚合

我们通过示例来了解一下分组、聚合操作。

from pandas import DataFrame
df = DataFrame({'name':['张三', '李四', '王五', '赵六'],                'gender':['男', '女', '男', '女'],                'age':[22, 11, 22, 33]})# 根据 age 分组gp1 = df.groupby('age')# 根据 age、gender 分组gp2 = df.groupby(['age', 'gender'])# 根据 gender 进行分组,将 name 作为分组的键gp3 = df['gender'].groupby(df['name'])# 查看分组print(gp2.groups)# 分组数量print(gp2.count())# 选择分组print(gp2.get_group((22, '男')))print('---------')# 聚合gp4 = df.groupby(df['gender'])# 和print(gp4.sum())# 平均值print(gp4.mean())# 最大值print(gp4.max())# 最小值print(gp4.min())# 同时做多个聚合运算print(gp4.agg(['sum', 'mean']))

4. 数据合并

Pandas 具有高性能内存中连接操作,与 SQL 相似,它提供了 merge() 函数作为 DataFrame 对象之间连接操作的入口,我们通过示例来看一下。

from pandas import DataFrameimport pandas as pd
df1 = DataFrame({'A':[2, 4, 5], 'B':[1, 2, 3], 'C':[2, 3, 6]})df2 = DataFrame({'D':[1, 3, 6], 'E':[2, 5, 7], 'F':[3, 6, 8]})df3 = DataFrame({'G':[2, 3, 6], 'H':[3, 5, 7], 'I':[4, 6, 8]})df4 = DataFrame({'G':[1, 3, 5], 'H':[4, 6, 8], 'I':[5, 7, 9]})# 左连接(以 d1 为基础)print(df1.join(df2, how='left'))# 右连接print(df1.join(df2, how='right'))# 外连接print(df1.join(df2, how='outer'))# 合并多个 DataFrameprint(df3.join([df1, df2]))# 指定列名进行合并print(pd.merge(df3, df4, on='G'))print(pd.merge(df3, df4, on=['G', 'H']))print(pd.merge(df3, df4, how='left'))print(pd.merge(df3, df4, how='right'))print(pd.merge(df3, df4, how='outer'))

5. 数据可视化

Pandas 的 Series 和 DataFrame 的绘图功能是包装了 matplotlib 库的 plot() 方法实现的,下面我们通过示例来看一下。

5.1 折线图

折线图代码实现如下所示:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame(np.random.randn(10,2), columns=list('AB'))df.plot()plt.show()

看一下效果: 

5.2 条形图

纵置条形图代码实现如下所示:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame(np.random.rand(5,3), columns=list('ABC'))df.plot.bar()plt.show()

看一下效果:

横置条形图代码实现如下所示:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame(np.random.rand(5,3), columns=list('ABC'))df.plot.barh()plt.show()

看一下效果: 

5.3 直方图

直方图代码实现如下所示:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame({'A':np.random.randn(800)+1, 'B':np.random.randn(800)}, columns=list('AB'))df.plot.hist(bins=10)plt.show()

看一下效果: 

我们还可以将 A、B 分开显示,代码实现如下:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame({'A':np.random.randn(800)+1, 'B':np.random.randn(800)}, columns=list('AB'))df.hist(bins=10)plt.show()

看一下效果: 

5.4 散点图

散点图代码实现如下所示:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame(np.random.rand(20, 2), columns=list('AB'))df.plot.scatter(x='A', y='B')plt.show()

看一下效果: 

5.5 饼图

饼图代码实现如下所示:​​​​​​​

import pandas as pd, numpy as np, matplotlib.pyplot as plt
df = pd.DataFrame([30, 20, 50], index=list('ABC'), columns=[''])df.plot.pie(subplots=True)plt.show()

看一下效果:

Python经验分享

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

Python学习路线

这里把Python常用的技术点做了整理,有各个领域的知识点汇总,可以按照上面的知识点找对应的学习资源。
在这里插入图片描述

学习软件

Python常用的开发软件,会给大家节省很多时间。
在这里插入图片描述

学习视频

编程学习一定要多多看视频,书籍和视频结合起来学习才能事半功倍。
在这里插入图片描述

100道练习题

在这里插入图片描述

实战案例

光学理论是没用的,学习编程切忌纸上谈兵,一定要动手实操,将自己学到的知识运用到实际当中。
在这里插入图片描述
最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值