图解Pandas,这篇文章是真的强!

Pandas是数据挖掘常见的工具,掌握使用过程中的函数是非常重要的。本文将借助可视化的过程,讲解Pandas的各种操作。

sort_values

(dogs[dogs['size'] == 'medium']
 .sort_values('type')
 .groupby('type').median()
)

执行步骤:

  • size列筛选出部分行

  • 然后将行的类型进行转换

  • 按照type列进行分组,计算中位数

0d8a57e8f2ef8c03b205b530239c89b4.png

408c2605d23278091379b6f3e6717bab.png

b890834ea06a8f5efa4ef8c7ddd0f2e6.png

43a1ccaca9b9bd1b495b65ce3cd47f51.png

selecting a column

dogs['longevity']

f4e29d7bdbc875bc32c71c01f4faea64.png

groupby + mean

dogs.groupby('size').mean()

执行步骤:

  • 将数据按照size进行分组

  • 在分组内进行聚合操作

2619ac6913e26f1f63eaf79ffb34f195.png

e789a7fe2528321adccabd4dfd73b08e.png

grouping multiple columns

dogs.groupby(['type', 'size'])

1efee616666e0a70578777255a5c8b4d.png

groupby + multi aggregation

(dogs
  .sort_values('size')
  .groupby('size')['height']
  .agg(['sum', 'mean', 'std'])
)

执行步骤

  • 按照size列对数据进行排序

  • 按照size进行分组

  • 对分组内的height进行计算

6036285f5f0660cb6dbc016ba952d60a.png

d40cfd339a9f281070582488afab7fab.png

d960dbc1ce26c9fe9fd8551659803fae.png

ecf407788d71b8a6d1f87dc50639f79e.png

filtering for columns

df.loc[:, df.loc['two'] <= 20]

667064496f537c769683ce6f623a4387.png

filtering for rows

dogs.loc[(dogs['size'] == 'medium') & (dogs['longevity'] > 12), 'breed']

218fc65c56ad0f2d2bab6ca89a9d41b4.png

dropping columns

dogs.drop(columns=['type'])

967a3a1351bed18d0746db189302966d.png

joining

ppl.join(dogs)

b574207bb2dba73c754844303387f0c8.png

merging

ppl.merge(dogs, left_on='likes', right_on='breed', how='left')

f4f7b1d445209fa52dde65009d934d1d.png

pivot table

dogs.pivot_table(index='size', columns='kids', values='price')

a9d402ac7eee36d35df6890f5ced6d33.png

melting

dogs.melt()

d36448ecce608d673796480278807d8d.png

pivoting

dogs.pivot(index='size', columns='kids')

b0e4c19715de86f203b79f23e077c419.png

stacking column index

dogs.stack()

9f2fa039e1c8cd3dca47cf82769c7e8f.png

unstacking row index

dogs.unstack()

95f21142b030a19c914b3f613ce9f617.png

resetting index

dogs.reset_index()

22007111a14eb4a8dbc0636f186bcd35.png

setting index

dogs.set_index('breed')

d353bd1c4a0e427ca8354b6468fc48f5.png

 
 

END -

 
 
本文为转载分享&推荐阅读,若侵权请联系后台删除

-------------------------------------

 
 

长按识别下方二维码,并关注公众号

7b02f204a5ad91e9aeae36363cf87ed8.png

1.回复“PY”领取1GB Python数据分析资料

2.回复“BG”领取3GB 名企数据分析报告
3.回复“简历”领取200份中文简历模板
当今数据分析领域中,Pandas 是一个非常流行的 Python 库。它提供了一种快速、灵活、高效的数据结构,可以轻松地处理和分析大量数据。在这篇文章中,我们将介绍 Pandas 的一些基本用法,以及如何使用它来处理和分析数据。 首先,我们需要安装 Pandas。可以使用 pip 命令来安装: ``` pip install pandas ``` 安装完成后,我们可以开始使用 Pandas。首先,我们需要导入 Pandas 库: ```python import pandas as pd ``` 接下来,我们可以使用 Pandas 来读取和处理数据。Pandas 支持多种数据格式,包括 CSV、Excel、SQL 数据库等。在这里,我们将使用 CSV 文件作为示例。假设我们有一个名为 data.csv 的文件,其中包含以下数据: ``` Name, Age, Gender John, 25, Male Jane, 30, Female Bob, 20, Male ``` 我们可以使用 Pandas 的 read_csv() 函数来读取这个文件: ```python data = pd.read_csv('data.csv') ``` 读取完成后,我们可以使用 head() 函数来查看前几行数据: ```python print(data.head()) ``` 输出结果如下: ``` Name Age Gender 0 John 25 Male 1 Jane 30 Female 2 Bob 20 Male ``` 接下来,我们可以使用 Pandas 来对数据进行一些基本的操作。例如,我们可以使用 loc[] 函数来选择特定的行和列: ```python # 选择第一行和第二列 print(data.loc[0, 'Age']) # 选择第一列 print(data.loc[:, 'Name']) # 选择前两行 print(data.loc[:1, :]) ``` 输出结果如下: ``` 25 0 John 1 Jane 2 Bob Name: Name, dtype: object Name Age Gender 0 John 25 Male 1 Jane 30 Female ``` 除了 loc[] 函数外,Pandas 还提供了许多其他函数来对数据进行操作,例如 iloc[]、drop()、merge() 等。这些函数的具体用法可以参考 Pandas 的官方文档。 最后,我们可以使用 Pandas 来对数据进行可视化Pandas 提供了一些简单易用的可视化函数,例如 plot()、hist()、scatter() 等。例如,我们可以使用 plot() 函数来绘制数据的折线图: ```python import matplotlib.pyplot as plt # 绘制年龄折线图 data.plot(x='Name', y='Age', kind='line') plt.show() ``` 输出结果如下: ![image](https://user-images.githubusercontent.com/87290316/135758011-9f9f2c7a-0d3d-4d3e-9c0d-4f8e8e8d9b9a.png) 以上就是 Pandas 的一些基本用法。Pandas 还有许多其他功能和用法,可以根据具体需求进行学习和使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值