Python_pandas_dataframe

最新推荐文章于 2020-12-29 09:40:06 发布

FanLei_Data

最新推荐文章于 2020-12-29 09:40:06 发布

阅读量291

点赞数

分类专栏： python

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在刚开始使用pandas DataFrame的时候，对于数据的选取，修改和切片经常困惑，这里总结了一些常用的操作。

先初始化一个DateFrame做例子

[python] view plain copy print ?

import numpy as np
import pandas as pd
df = pd.DataFrame([['Snow','M',22],['Tyrion','M',32],['Sansa','F',18],['Arya','F',14]], columns=['name','gender','age'])

import numpy as np
import pandas as pd
df = pd.DataFrame([['Snow','M',22],['Tyrion','M',32],['Sansa','F',18],['Arya','F',14]], columns=['name','gender','age'])

df是这样的

[python] view plain copy print ?

In [35]: df
Out[35]:
name gender age
0 Snow M 22
1 Tyrion M 32
2 Sansa F 18
3 Arya F 14

In [35]: df
Out[35]: 
     name    gender  age
0    Snow     M       22
1    Tyrion   M       32
2    Sansa    F       18
3    Arya     F       14

如果每列都有column name，比如这里是:

[python] view plain copy print ?

In [42]: df.columns
Out[42]: Index(['name', 'gender', 'age'], dtype='object')

In [42]: df.columns
Out[42]: Index(['name', 'gender', 'age'], dtype='object')

1. df['column_name'] ，df[row_start_index, row_end_index] 选取指定整列数据

[python] view plain copy print ?

df['name']
df['gender']
df[['name','gender']] #选取多列，多列名字要放在list里
df[0:] #第0行及之后的行，相当于df的全部数据，注意冒号是必须的
df[:2] #第2行之前的数据（不含第2行）
df[0:1] #第0行
df[1:3] #第1行到第2行（不含第3行）
df[-1:] #最后一行
df[-3:-1] #倒数第3行到倒数第1行（不包含最后1行即倒数第1行，这里有点烦躁，因为从前数时从第0行开始，从后数就是-1行开始，毕竟没有-0）

df['name']
df['gender']
df[['name','gender']] #选取多列，多列名字要放在list里
df[0:]	#第0行及之后的行，相当于df的全部数据，注意冒号是必须的
df[:2]	#第2行之前的数据（不含第2行）
df[0:1]	#第0行
df[1:3] #第1行到第2行（不含第3行）
df[-1:] #最后一行
df[-3:-1] #倒数第3行到倒数第1行（不包含最后1行即倒数第1行，这里有点烦躁，因为从前数时从第0行开始，从后数就是-1行开始，毕竟没有-0）

2. loc，在知道列名字的情况下，df.loc[index,column] 选取指定行，列的数据

[python] view plain copy print ?

# df.loc[index, column_name],选取指定行和列的数据
df.loc[0,'name'] # 'Snow'
df.loc[0:2, ['name','age']] #选取第0行到第2行，name列和age列的数据, 注意这里的行选取是包含下标的。
df.loc[[2,3],['name','age']] #选取指定的第2行和第3行，name和age列的数据
df.loc[df['gender']=='M','name'] #选取gender列是M，name列的数据
df.loc[df['gender']=='M',['name','age']] #选取gender列是M，name和age列的数据

# df.loc[index, column_name],选取指定行和列的数据
df.loc[0,'name'] # 'Snow'
df.loc[0:2, ['name','age']] 		 #选取第0行到第2行，name列和age列的数据, 注意这里的行选取是包含下标的。
df.loc[[2,3],['name','age']] 		 #选取指定的第2行和第3行，name和age列的数据
df.loc[df['gender']=='M','name'] 	 #选取gender列是M，name列的数据
df.loc[df['gender']=='M',['name','age']] #选取gender列是M，name和age列的数据

3. iloc，在column name特别长或者index是时间序列等各种不方便输入的情况下，可以用iloc (i = index), iloc完全用数字来定位 iloc[row_index, column_index]

[python] view plain copy print ?

df.iloc[0,0] #第0行第0列的数据，'Snow'
df.iloc[1,2] #第1行第2列的数据，32
df.iloc[[1,3],0:2] #第1行和第3行，从第0列到第2列（不包含第2列）的数据
df.iloc[1:3,[1,2] #第1行到第3行（不包含第3行），第1列和第2列的数据

df.iloc[0,0]		#第0行第0列的数据，'Snow'
df.iloc[1,2]		#第1行第2列的数据，32
df.iloc[[1,3],0:2]	#第1行和第3行，从第0列到第2列（不包含第2列）的数据
df.iloc[1:3,[1,2]	#第1行到第3行（不包含第3行），第1列和第2列的数据

4. ix, ix很强大，loc和iloc的功能都能做到 ix[row_index, column_index]

[python] view plain copy print ?

df.ix[0,0] #第0行第0列的数据，'Snow'
df.ix[0,[1,2]] #第0行，第1列和第2列的数据
df.ix[0:2,[1,2]] #第0行到第2行（包含第3行），第1列和第2列的数据
df.ix[1,0:2] #第1行，从第0列到第2列（不包含第2列）的数据

df.ix[0,0]		#第0行第0列的数据，'Snow'
df.ix[0,[1,2]]		#第0行，第1列和第2列的数据
df.ix[0:2,[1,2]]	#第0行到第2行（包含第3行），第1列和第2列的数据
df.ix[1,0:2]		#第1行，从第0列到第2列（不包含第2列）的数据

切片时，iloc行不含下标上限，loc,ix行包含，列iloc和ix都不含列下标上限

FanLei_Data

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python_pandas_dataframe

在刚开始使用pandas DataFrame的时候，对于数据的选取，修改和切片经常困惑，这里总结了一些常用的操作。先初始化一个DateFrame做例子[python] view plain copy print?import numpy as np import pandas as pd df = pd.DataFrame([['Snow','M',
复制链接

扫一扫

专栏目录