python - pandas 之 dataframe - 行列筛选/遍历/新增/删除/连接/合并/修改/跨表update

本文链接：https://blog.csdn.net/helunqu2017/article/details/117373637

本文详细介绍了Pandas DataFrame的各种操作，包括利用索引和位置筛选数据，遍历行列，新增和删除行列，以及数据连接和合并。还涉及了如何修改数据，使用merge、append和concat函数，以及跨表update操作。内容全面，适合数据处理初学者和进阶者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.dataframe行列筛选

(1)df[] 按索引标签和位置序号选取行或列
df[0:1] 根据位置序号选取第一行
df[:2] 根据位置序号选取前两行
df[:'a'] 根据index标签选取第一行
df['a':'b'] 根据index标签选取前两行
df[[True,True,False]] 选取前两行
df['name'] 选取name列，返回series
df[['name','age']] 选取name,age两列，返回dataframe
df[lambda df: df.columns[0]] 选取第一列
df[lambda df: df.columns[:2]] 选取1至2列

(2)df.loc[] 按索引标签选取行和列
loc[]只能使用索引标签，不能使用位置序号，通过便签索引切边进行筛选时，前闭后闭
df.loc['a',:] 选取索引为'a'的行
df.loc[['a','b','c'],:] 选取索引为'a'或'b'或'c'的行
df.loc['a':'c', :] 选取从'a'到'c'的所有行（包括'c'行）,超过索引行不报错，返回全部行，
df.loc[:,'name'] 选取'name'列
df.loc[:,['name','age']] 选取'name'，'age'列
df.loc[:,'name':'addr'] 选取'name'至'addr'列，包括'addr'列
df.loc[:,[True,True,False]] 选取前两行
df.loc['a',['name','addr']] 选择'a'行的'name'与'addr'列数据
df.loc['a','name':'addr'] 选择'a'行的'name'至'addr'列数据
df.loc[['a','c'],['name''addr']] 选择'a','c'行的'name','addr'列数据
df.loc['a':'c','name':'addr'] 选择'a'至'c'行的'name'至'addr'列数据

(3)df.iloc[] 按位置序号选取行和列
只能使用位置序号，不能使用索引标签，通过位置序号进行筛选时，前闭后开
df.iloc[1, :] 选取第2行
df.iloc[:3, :] 选取前3行
df.iloc[[1,3,5],:] 选取第2行、第4行、第6行
df.iloc[[True,True,False], :] 通过布尔数组选取前2行
df.iloc[:, 1] 选取第2列
df.iloc[:, 0:3] 选取前3列
df.iloc[:, [0,2,3]] 选取第1列、第3列和第4列
df.iloc[:,[True,True,False]] 通过布尔数组选取前2列
df.iloc[1, [0,2,3]] 选取第2行的第1列、第3列、第4列
df.iloc[:3, :3] 选取前3行的前3列

(4)df.at[] 只能按索引标签选取单元格
df.at['b','name'] 选取b行的name列

(5)df.iat[] 只能按位置序号选取单元格
df.iat[1,0] 选取第2行第1列

list1=[['B1', '2019-12-01', 3], ['B2', '2019-12-01', 8],[None, '2019-12-02', 4],['B2',None, 5]]
data=pd.DataFrame(list1,columns=('asin','date','qty'))

(1)df[df['col']]用==,>等比较运算符
df[df['age']>28] 选取所有age大于30的行
df[[age>28 for age in df['age']]] 选取所有age大于30的行
df[(df['age']>20) & (df['sex']=='male')] 选取出所有age大于20，且sex为male的行
df[(df['age']==20) | (df['age']==32)] 选取出所有age为20或32的行
new_data=data[data['asin']=='B1']
new_data=data.loc[data['asin']=='B1']
df[(df['sex'] == 'Female') & (df['total_bill'] > 20)]
df[(df['sex'] == 'Female') | (df['total_bill'] > 20)]
df[df['total_bill'].isin([21.01, 23.68, 24.59])]
df[-(df['sex'] == 'Male')]
df[-df['total_bill'].isin([21.01, 23.68, 24.59])]

(2)df[df['col']]选出空值或非空值行
data[data[0].isna()] 选取第1列为nan的行
data[data[0].notna()] 选取第1列不为nan的行
data[data[0].isnull()] 选取第1列为nan的行
data[data[0].notnull()] 选取第1列不为nan的行
df2=df[df['search_frequency_rank'].notna()]
df2=df[df['search_frequency_rank'].isna()]
#某列空值的行(包括nan)
data=data[data['asin'].isnull()]
data=data[(data['asin'].isnull()) & (data['date'].isnull())]
#某列非空的行(包括nan)
data=data[data['asin'].notnull()]
data=data[data['asin'].notnull() & data['date'].notnull()]

(3)df[df['col'].isin()]用isin条件筛选
new_data=data[data['Sourcing Status'].isin(['Dropped','In JIRA - 2018'])]
new_data=data.loc[data['Sourcing Status'].isin(['Dropped','In JIRA - 2018'])]

(4)df[df['col'].str.contains]模糊匹配行
#筛选包括有B,注意有nan会报错,可用notnull()去除nan行
df=data[data['asin'].str.contains("B")] 
#筛选包括有n的 或 有i的
df=data[data['asin'].str.contains("B|1")] 
s3=pd.Series(['len','jack','win','lily','tom'],index=range(5))
s4=s3[s3.str.contains("n")] #筛选包括有n的，区分大小写
s4=s3[s3.str.contains("n|i")] #筛选包括有n的 或 有i的
s4 = s3[s3.str.contains('|'.join(['i','n']))] #join写法

(5)df.loc[] 方式
df.loc[df['age']>30,:] 选取所有age大于30的行
df.loc[df.loc[:,'age']>30, :] 选取所有age大于30的行
df.loc[lambda df:df['age'] > 30, :] 用callable对象选取age大于30的所有行
df.loc[df['age']>30,['name','age']] 输出年龄大于30的人的姓名和年龄
df.loc[(df['name']=='Mike') | (df['name']=='Marry'),['name','age']] 输出行名为‘Mike’或‘Marry’的姓名和年龄

(6)df.query()方式
df.query('a > b') 选出a列值大于b列值的行
df.query('age > 28') 选取所有age大于28的行
df.query('sex=="male"') 选取所有sex为male的行
df.query('sex==["male","female"]') 选取所有sex为male和female的行
df.query('sex!="male"') 选取所有sex不为male的行
df.query('age < 30 and revenue < 20000') 选出age小于30且revenue小于20000的行
df.query('age<30 or revenue >20000') 选出age小于30中revenue大于20000的行
df.query('A< B & B < C') 选出A列值小B列值,且B列值小C列值的列
df.query('A< B and B < C') 选出A列值小B列值,且B列值小C列值的列
df.query('A < B < C') 选出A列值小B列值,且B列值小C列值的列
df.query('["yj", "zs"] in addr') 选出addr为yj或zs的行
df.query('["yj", "zs"] not in addr') 选出addr不为yj和zs的行
df.query('age < @avg_age') 选出age小于avg_age的行,avg_age为变量，调用时前面加上@
df.query('not OUT') 选出OUT列为false的行，其中OUT的值只能为True或False 

(7)where函数筛选
DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None, try_cast=False, raise_on_error=True)
import numpy as np, pandas as pd
s = pd.Series(range(5))
print(s.where(s > 2))

2.dataframe遍历行列

list1=[['B1', '2019-12-01', 3], ['B2', '2019-12-01', 8],['A1', '2019-12-02', 4],['A2','2019-12-09', 5]]
data=pd.DataFrame(list1,columns=('asin','date','qty'))

(1)按行遍历iterrows()

iterrows() 按行遍历，返回(index, Series)对，通过row[name]访问元素

for index, row in data.iterrows():
print(index,row.tolist()) 
# 输出每行的索引值
# 0 ['B1', '2019-12-01', 3]

(2)按行遍历itertuples()

itertuples() 按行遍历，比iterrows()效率高，通过getattr(row, 'date'))访问元素

for row in data.itertuples():
    print(row)
    print(getattr(row, 'asin'), getattr(row, 'date')) # name与age为列名
#Pandas(Index=0, asin='B1', date='2019-12-01', qty=3)
# B1 2019-12-01

(3)按列遍历iteritems()

iteritems() 按列遍历，返回(列名, Series)对，row[index]访问元素

for column_name, row in data.iteritems():
    print(column_name,row.tolist()) 
#asin ['B1', 'B2', 'A1', 'A2']
#date ['2019-12-01', '2019-12-01', '2019-12-02', '2019-12-09']
#qty [3, 8, 4, 5]

(4)按index遍历行

for index in data.index:
    print(data.loc[index].tolist())
#['B1', '2019-12-01', 3]
#['B2', '2019-12-01', 8]
#['A1', '2019-12-02', 4]
#['A2', '2019-12-09', 5]

(5)按column遍历列

for column in data.columns:
    print(data[column].tolist())

#['B1', 'B2', 'A1', 'A2']
#['2019-12-01', '2019-12-01', '2019-12-02', '2019-12-09']
#[3, 8, 4, 5]

3.dataframe新增行列

(1)整列赋单值

data['five']=9

(2)由已知列生成新列

data['qty2'] = data['qty']**3 #单列运算生成
df['col']=df['col1']+df['col2'] #多列运算生成

(3)使用df.apply函数

def padn(a,b):
    if a >= 10000 and b=='male':
    return 'yes'
elif a>8000 and b=='female':
    return 'yes'
else:
    return 'no'

df['fh']=df.apply(lambda x: padn(x.revenue,x.sex), axis = 1)
df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)

(4)使用df.map函数

1)使用自定义函数
def square(x):
    return (x ** 2)
data['qty2'] = data['qty'].map(square)

2)使用匿名函数
data['qty2'] = data['qty'].map(lambda x: x**2)

(5)使用df.assign函数

df = pd.DataFrame({'temp_c': [17.0, 25.0]},index=['Portland', 'Berkeley'])
df.assign(temp_f=lambda x: x.temp_c * 9 / 5 + 32)
#等同 df.assign(temp_f=df['temp_c'] * 9 / 5 + 32)

df.assign(temp_f=lambda x: x['temp_c'] * 9 / 5 + 32,temp_k=lambda x: (x['temp_f'] + 459.67) * 5 / 9)
# temp_c temp_f temp_k
# Portland 17.0 62.6 290.15
# Berkeley 25.0 77.0 298.15

s=pd.Series([11,12,13],name='S')
data=np.arange(21,24)
df=pd.DataFrame({'A':[31,32,33],'B':[41,42,43]})
fun=lambda x:x.A+x.B
df.assign(C=fun,D=df.A+df.B,E=s,F=data)
# A B C D E F
# 0 31 41 72 72 11 21
# 1 32 42 74 74 12 22
# 2 33 43 76 76 13 23

(6)使用df.applymap函数

#用法与apply相似，但作用于所有列
df = pd.DataFrame([[1, 2.12], [3.356, 4.567]])
df.applymap(lambda x: x**2)