pandas和numpy的一些常用操作

文章详细介绍了如何在Pandas的DataFrame中按行名、行号、列名或列号删除数据。使用drop函数,可以指定axis参数(0表示行,1表示列),并可选择性地设置inplace=True来直接修改原始DataFrame。对于无行名的情况,需要注意行号和行标签的区别。此外,文章还提到了显示全部数据的Pandas选项。
摘要由CSDN通过智能技术生成

目录

DataFrame指定的行删除

按行名指定(行标签)

按行号指定

未设置行名的注意事项

DataFrame指定的列删除

按列名指定(列标签)

按列号指定

Pandas如何显示全部数据


DataFrame指定的行删除

按行名指定(行标签)

原数据为:

import pandas as pd

df = pd.read_csv('./data/12/sample_pandas_normal.csv', index_col=0)
print(df)
#          age state  point
# name
# Alice     24    NY     64
# Bob       42    CA     92
# Charlie   18    CA     70
# Dave      68    TX     70
# Ellen     24    CA     88
# Frank     30    NY     57

它由第一个参数labels和第二个参数axis指定。行指定axis= 0。

print(df.drop('Charlie', axis=0))
#        age state  point
# name                   
# Alice   24    NY     64
# Bob     42    CA     92
# Dave    68    TX     70
# Ellen   24    CA     88
# Frank   30    NY     57

默认值为axis = 0,因此可以省略axis。

从0.21.0或更高版本开始,它也可以由参数索引指定。



print(df.drop(index='Charlie'))
#        age state  point
# name                   
# Alice   24    NY     64
# Bob     42    CA     92
# Dave    68    TX     70
# Ellen   24    CA     88
# Frank   30    NY     57

如果要一次删除多行,请在列表中指定。

print(df.drop(['Bob', 'Dave', 'Frank']))
#          age state  point
# name                     
# Alice     24    NY     64
# Charlie   18    CA     70
# Ellen     24    CA     88

print(df.drop(index=['Bob', 'Dave', 'Frank']))
#          age state  point
# name                     
# Alice     24    NY     64
# Charlie   18    CA     70
# Ellen     24    CA     88

默认情况下,原始DataFrame保持不变,并返回一个新的DataFrame。如果参数inplace设置为True,则将更改原始DataFrame。在这种情况下,不会返回任何新的DataFrame,并且返回值为None。

按行号指定

如果要按行号指定,请使用DataFrame的index属性。

如果在index属性的[]中指定行号,则可以获得相应的行名。可以在列表中指定多个行号。

print(df.index[[1, 3, 5]])
# Index(['Bob', 'Dave', 'Frank'], dtype='object', name='name')

在drop()第一个的参数中指定labels或index的名称。

print(df.drop(df.index[[1, 3, 5]]))
#          age state  point
# name                     
# Alice     24    NY     64
# Charlie   18    CA     70
# Ellen     24    CA     88

print(df.drop(index=df.index[[1, 3, 5]]))
#          age state  point
# name                     
# Alice     24    NY     64
# Charlie   18    CA     70
# Ellen     24    CA     88

未设置行名的注意事项

如果未设置行名,则index默认为整数序号。当使用数字值而不是这样的字符串作为索引时要小心。

df_noindex = pd.read_csv('./data/12/sample_pandas_normal.csv')
print(df_noindex)
#       name  age state  point
# 0    Alice   24    NY     64
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 3     Dave   68    TX     70
# 4    Ellen   24    CA     88
# 5    Frank   30    NY     57

print(df_noindex.index)
# RangeIndex(start=0, stop=6, step=1)

如果由于排序原因其不是序列号,结果将有所不同。当直接指定数字值时,将删除行标签为该数字值的行,而当使用index属性时,将删除其行号为该数字值的行。

df_noindex_sort = df_noindex.sort_values('state')
print(df_noindex_sort)
#       name  age state  point
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 4    Ellen   24    CA     88
# 0    Alice   24    NY     64
# 5    Frank   30    NY     57
# 3     Dave   68    TX     70

print(df_noindex_sort.index)
# Int64Index([1, 2, 4, 0, 5, 3], dtype='int64')

print(df_noindex_sort.drop([1, 3, 5]))
#       name  age state  point
# 2  Charlie   18    CA     70
# 4    Ellen   24    CA     88
# 0    Alice   24    NY     64

print(df_noindex_sort.drop(df_noindex_sort.index[[1, 3, 5]]))
#     name  age state  point
# 1    Bob   42    CA     92
# 4  Ellen   24    CA     88
# 5  Frank   30    NY     57

如果是序列号,则无论原样指定数字值还是使用index属性,结果都将相同。

print(df_noindex.drop([1, 3, 5]))
#       name  age state  point
# 0    Alice   24    NY     64
# 2  Charlie   18    CA     70
# 4    Ellen   24    CA     88

print(df_noindex.drop(df_noindex.index[[1, 3, 5]]))
#       name  age state  point
# 0    Alice   24    NY     64
# 2  Charlie   18    CA     70
# 4    Ellen   24    CA     88

DataFrame指定的列删除

按列名指定(列标签)

它由第一个参数labels和第二个参数axis指定。列指定axis= 1。

print(df.drop('state', axis=1))
#          age  point
# name               
# Alice     24     64
# Bob       42     92
# Charlie   18     70
# Dave      68     70
# Ellen     24     88
# Frank     30     57

从0.21.0或更高版本开始,可以使用参数列指定它。

print(df.drop(columns='state'))
#          age  point
# name               
# Alice     24     64
# Bob       42     92
# Charlie   18     70
# Dave      68     70
# Ellen     24     88
# Frank     30     57

如果要一次删除多个列,请在列表中指定。

参数inplace的使用方法与行的相同。

按列号指定

如果要按列号指定,请使用DataFrame的columns属性。

print(df.columns[[1, 2]])
# Index(['state', 'point'], dtype='object')

print(df.drop(df.columns[[1, 2]], axis=1))
#          age
# name        
# Alice     24
# Bob       42
# Charlie   18
# Dave      68
# Ellen     24
# Frank     30

print(df.drop(columns=df.columns[[1, 2]]))
#          age
# name        
# Alice     24
# Bob       42
# Charlie   18
# Dave      68
# Ellen     24
# Frank     30

如果columns是整数值,请小心上述行。

从0.21.0及更高版本开始,可以通过同时指定参数index和column来删除多行/多列。

当然,也可以通过行号/列号指定,和使用参数inplace。

print(df.drop(index=['Bob', 'Dave', 'Frank'],
              columns=['state', 'point']))
#          age
# name        
# Alice     24
# Charlie   18
# Ellen     24

print(df.drop(index=df.index[[1, 3, 5]],
              columns=df.columns[[1, 2]]))
#          age
# name        
# Alice     24
# Charlie   18
# Ellen     24

df_org = df.copy()
df_org.drop(index=['Bob', 'Dave', 'Frank'],
            columns=['state', 'point'], inplace=True)
print(df_org)
#          age
# name        
# Alice     24
# Charlie   18
# Ellen     24

Pandas如何显示全部数据

#显示所有列
pd.set_option('display.max_columns', None)

#显示所有行
pd.set_option('display.max_rows', None)

#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值