pandas&Dataframe模块

最新推荐文章于 2024-01-11 19:25:49 发布

余生羁绊

最新推荐文章于 2024-01-11 19:25:49 发布

阅读量521

点赞数 1

分类专栏： Numpy Python 可视化

本文链接：https://blog.csdn.net/m0_46202060/article/details/117093335

版权

Python 同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

可视化

23 篇文章 0 订阅

订阅专栏

Numpy

9 篇文章 1 订阅

订阅专栏

本文详细介绍了Pandas DataFrame的基础操作，包括查看数据、选择数据、设置值等。通过实例展示了如何使用head()和tail()查看数据的前几行和后几行，利用index、columns和values获取索引、列名和值，使用describe()进行统计汇总，以及数据的转置、排序等。此外，还探讨了如何通过标签和位置选择数据，以及条件筛选数据的方法。

摘要由CSDN通过智能技术生成

pandas——DataFrame基本操作(一)

实验目的
熟练掌握pandas中DataFrame的基本操作

实验原理
DataFrame提供的是一个类似表的结构，由多个Series组成，而Series在DataFrame中叫columns。

一、查看数据（查看对象的方法对于Series来说同样适用）

1.查看DataFrame前xx行或后xx行
a=DataFrame(data);
a.head(6)表示显示前6行数据，若head()中不带参数则会显示全部数据。
a.tail(6)表示显示后6行数据，若tail()中不带参数则也会显示全部数据。

2.查看DataFrame的index，columns以及values
a.index ; a.columns ; a.values 即可

3.describe()函数对数据快速统计汇总
a.describe()对每一列数据进行统计，包括计数，均值，std，各个分位数等。

4.对数据的转置
a.T

5.对轴进行排序
a.sort_index(axis=1,ascending=False)；
其中axis=1表示对所有的columns进行排序，下面的数也跟着发生移动。后面的ascending=False表示按降序排列，参数缺失时默认升序。

6.对DataFrame中的值排序
a.sort(columns=‘x’)
即对a中的x这一列，从小到大进行排序。注意仅仅是x这一列，而上面的按轴进行排序时会对所有的columns进行操作。

二、选择对象
1.选择特定列和行的数据
a[‘x’] 那么将会返回columns为x的列，注意这种方式一次只能返回一个列。a.x与a[‘x’]意思一样。
取行数据，通过切片[]来选择
如：a[0:3] 则会返回前三行的数据。

2.loc是通过标签来选择数据
a.loc[‘one’]则会默认表示选取行为’one’的行；
a.loc[:,[‘a’,‘b’] ] 表示选取所有的行以及columns为a,b的列；
a.loc[[‘one’,‘two’],[‘a’,‘b’]] 表示选取’one’和’two’这两行以及columns为a,b的列；
a.loc[‘one’,‘a’]与a.loc[[‘one’],[‘a’]]作用是一样的，不过前者只显示对应的值，而后者会显示对应的行和列标签。

3.iloc则是直接通过位置来选择数据
这与通过标签选择类似
a.iloc[1:2,1:2] 则会显示第一行第一列的数据;(切片后面的值取不到)
a.iloc[1:2] 即后面表示列的值没有时，默认选取行位置为1的数据;
a.iloc[[0,2],[1,2]] 即可以自由选取行位置，和列位置对应的数据。

4.使用条件来选择
使用单独的列来选择数据
a[a.c>0] 表示选择c列中大于0的数据
使用where来选择数据
a[a>0] 表直接选择a中所有大于0的数据
使用isin()选出特定列中包含特定值的行
a1=a.copy()
a1[a1[‘one’].isin([‘2’,‘3’])] 表显示满足条件：列one中的值包含’2’,'3’的所有行。

三、设置值（赋值）
赋值操作在上述选择操作的基础上直接赋值即可。
例a.loc[:,[‘a’,‘c’]]=9 即将a和c列的所有行中的值设置为9
a.iloc[:,[1,3]]=9 表示1和2列的所有行中的值设置为9
同时也依然可以用条件来直接赋值
a[a>0]=-a 表示将a中所有大于0的数转化为负值

实验环境

Jupyter
Python 3.6.1

实验内容
练习pandas中DataFrame的创建与查询操作。

pandas——Dataframe

import pandas as pd
import numpy as np

1.创建DataFrame

dates = pd.date_range('20130101', periods=6)  
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))  
df

	A	B	C	D
2013-01-01	0.847546	1.291573	-2.720510	-0.348135
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-03	-1.856730	-0.676007	0.676585	1.091858
2013-01-04	1.413553	0.994145	1.097863	0.854707
2013-01-05	-1.406686	0.731920	1.428273	0.260309
2013-01-06	-0.342040	1.599849	-2.143358	-0.986746

2.基础操作

1)查看df的前5行

df.head()

	A	B	C	D
2013-01-01	0.847546	1.291573	-2.720510	-0.348135
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-03	-1.856730	-0.676007	0.676585	1.091858
2013-01-04	1.413553	0.994145	1.097863	0.854707
2013-01-05	-1.406686	0.731920	1.428273	0.260309

2) 查看df的后3行

df.tail(3)

	A	B	C	D
2013-01-04	1.413553	0.994145	1.097863	0.854707
2013-01-05	-1.406686	0.731920	1.428273	0.260309
2013-01-06	-0.342040	1.599849	-2.143358	-0.986746

3) 查看df的索引名index。

df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',               '2013-01-05', '2013-01-06'],              dtype='datetime64[ns]', freq='D')

4) 查看df的列名columns

df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

5) 查看df的值values

df.values

array([[ 0.84754585,  1.29157257, -2.72051013, -0.34813522],       [ 0.0763413 ,  0.65871447, -0.23554552,  1.60266872],       [-1.85672977, -0.67600652,  0.67658458,  1.09185836],       [ 1.41355302,  0.99414462,  1.09786345,  0.85470695],       [-1.40668588,  0.73192013,  1.42827312,  0.26030856],       [-0.34203952,  1.59984894, -2.143358  , -0.98674647]])

6) 查看df的数据统计描述

df.describe()

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	-0.211336	0.766699	-0.316115	0.412443
std	1.264715	0.789384	1.740925	0.962621
min	-1.856730	-0.676007	-2.720510	-0.986746
25%	-1.140524	0.677016	-1.666405	-0.196024
50%	-0.132849	0.863032	0.220520	0.557508
75%	0.654745	1.217216	0.992544	1.032571
max	1.413553	1.599849	1.428273	1.602669

7) df的转置

df.T

	2013-01-01	2013-01-02	2013-01-03	2013-01-04	2013-01-05	2013-01-06
A	0.847546	0.076341	-1.856730	1.413553	-1.406686	-0.342040
B	1.291573	0.658714	-0.676007	0.994145	0.731920	1.599849
C	-2.720510	-0.235546	0.676585	1.097863	1.428273	-2.143358
D	-0.348135	1.602669	1.091858	0.854707	0.260309	-0.986746

8) 按axis对df数据进行排序，axis=1表示按行排序，axis=0表示按列排序

df.sort_index(axis=1,ascending=False)

	D	C	B	A
2013-01-01	-0.348135	-2.720510	1.291573	0.847546
2013-01-02	1.602669	-0.235546	0.658714	0.076341
2013-01-03	1.091858	0.676585	-0.676007	-1.856730
2013-01-04	0.854707	1.097863	0.994145	1.413553
2013-01-05	0.260309	1.428273	0.731920	-1.406686
2013-01-06	-0.986746	-2.143358	1.599849	-0.342040

9) 按value对df数据和进行排序

df.sort_values(by='B')

	A	B	C	D
2013-01-03	-1.856730	-0.676007	0.676585	1.091858
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-05	-1.406686	0.731920	1.428273	0.260309
2013-01-04	1.413553	0.994145	1.097863	0.854707
2013-01-01	0.847546	1.291573	-2.720510	-0.348135
2013-01-06	-0.342040	1.599849	-2.143358	-0.986746

3.Selection查看操作

1) 查看df中的A列，返回一个Series

df['A']

2013-01-01    0.8475462013-01-02    0.0763412013-01-03   -1.8567302013-01-04    1.4135532013-01-05   -1.4066862013-01-06   -0.342040Freq: D, Name: A, dtype: float64

2)通过[ ] (切片)查看df的行片段

df[0:3]

	A	B	C	D
2013-01-01	0.847546	1.291573	-2.720510	-0.348135
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-03	-1.856730	-0.676007	0.676585	1.091858

4.通过label查看df数据 (花式索引)

1) 使用loc查看df中dates[0]的部分

df.loc[dates[0]]

A    0.847546B    1.291573C   -2.720510D   -0.348135Name: 2013-01-01 00:00:00, dtype: float64

2）使用loc查看A、B两列的值

df.loc[:,['A','B']]

	A	B
2013-01-01	0.847546	1.291573
2013-01-02	0.076341	0.658714
2013-01-03	-1.856730	-0.676007
2013-01-04	1.413553	0.994145
2013-01-05	-1.406686	0.731920
2013-01-06	-0.342040	1.599849

3) 使用loc查看日期从20130102到20130104的A，B两列的值

df.loc['20130102':'20130104',['A','B']]

	A	B
2013-01-02	0.076341	0.658714
2013-01-03	-1.856730	-0.676007
2013-01-04	1.413553	0.994145

4) 减少维度，查看日期为20130102中A，B两列的值

df.loc['20130102',['A','B']]

A    0.076341B    0.658714Name: 2013-01-02 00:00:00, dtype: float64

5) 得到一个标量值，使用loc查看df中date[0]，A列的值

df.loc[dates[0],['A']]

A    0.847546Name: 2013-01-01 00:00:00, dtype: float64

df.loc[dates[0],'A']

0.8475458518680259

6) 使用at快速查找df中dates[0],A列的值。

df.at[dates[0],'A']

0.8475458518680259

5.通过位置查看df数据(位置索引)

1）使用iloc查看df的第4行数据

df.iloc[3]

A    1.413553B    0.994145C    1.097863D    0.854707Name: 2013-01-04 00:00:00, dtype: float64

2) 使用iloc查看df中行下标为3:5，列下标为0:2的数据（不包含行下标为5的行，也不包含列下标为2的列）

df.iloc[3:5,0:2]

	A	B
2013-01-04	1.413553	0.994145
2013-01-05	-1.406686	0.731920

3) 使用iloc查看df中行下标为1,2,4，列下标为0,2的数据

df.iloc[[1,2,4],[0,2]]

	A	C
2013-01-02	0.076341	-0.235546
2013-01-03	-1.856730	0.676585
2013-01-05	-1.406686	1.428273

4) 使用iloc查看df行下标为1:3的数据（不包含下标为3的行）。

df.iloc[1:3,:]

	A	B	C	D
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-03	-1.856730	-0.676007	0.676585	1.091858

5) 使用iloc查看df行列下标都为1的值

df.iloc[1,1]

0.658714467091628

6) 使用iat方法快速查看df中行列下标均为1的值。

df.iat[1,1]

0.658714467091628

6.使用布尔索引查看df的数据

1）查看df中满足df.A>0布尔条件的值

df[df.A>0]

	A	B	C	D
2013-01-01	0.847546	1.291573	-2.720510	-0.348135
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-04	1.413553	0.994145	1.097863	0.854707

2) 查看df中满足df>0布尔条件的值

df[df>0]

	A	B	C	D
2013-01-01	0.847546	1.291573	NaN	NaN
2013-01-02	0.076341	0.658714	NaN	1.602669
2013-01-03	NaN	NaN	0.676585	1.091858
2013-01-04	1.413553	0.994145	1.097863	0.854707
2013-01-05	NaN	0.731920	1.428273	0.260309
2013-01-06	NaN	1.599849	NaN	NaN

3) 使用copy方法赋值df给df2，为df2添加列名为E，值为[‘one’, ‘one’,‘two’,‘three’,‘four’,‘three’]的列，再使用isin()方法过滤出df中满足df2.E在[‘two’,‘four’]的数据。

df2=df.copy()  df2

	A	B	C	D
2013-01-01	0.847546	1.291573	-2.720510	-0.348135
2013-01-02	0.076341	0.658714	-0.235546	1.602669
2013-01-03	-1.856730	-0.676007	0.676585	1.091858
2013-01-04	1.413553	0.994145	1.097863	0.854707
2013-01-05	-1.406686	0.731920	1.428273	0.260309
2013-01-06	-0.342040	1.599849	-2.143358	-0.986746

df2['E']=['one', 'one','two','three','four','three']  df2

	A	B	C	D	E
2013-01-01	0.847546	1.291573	-2.720510	-0.348135	one
2013-01-02	0.076341	0.658714	-0.235546	1.602669	one
2013-01-03	-1.856730	-0.676007	0.676585	1.091858	two
2013-01-04	1.413553	0.994145	1.097863	0.854707	three
2013-01-05	-1.406686	0.731920	1.428273	0.260309	four
2013-01-06	-0.342040	1.599849	-2.143358	-0.986746	three