7. 使用value\_counts()查看值的分布
查看某一列中不同值的计数
print(df[‘A’].value_counts())
8. 使用unique()查看唯一值
查看某一列中唯一的出现的值
print(df[‘A’].unique())
9. 使用duplicated()检查重复值
检查DataFrame中的重复行
print(df.duplicated())
检查DataFrame中没有重复行
print(~df.duplicated())
10. 使用sort\_values()对数据进行排序
对某一列进行升序排序
print(df.sort_values(by=‘A’))
对某一列进行降序排序
print(df.sort_values(by=‘A’, ascending=False))
通过这些方法,可以快速地了解和检查DataFrame中的数据,帮助我们在进行数据处理之前对数据有一个基本的认识。
**第四、数据选取**
在Pandas中,数据选取是通过索引来实现对DataFrame或Series中数据的选择。索引可以是标签(label-based)或整数(integer-based)。以下是一些常用的数据选取方法:
1. 使用标签索引(Label-based Indexing)
import pandas as pd
创建一个DataFrame
df = pd.DataFrame({
‘A’: [1, 2, 3, 4, 5],
‘B’: [6, 7, 8, 9, 10],
‘C’: [11, 12, 13, 14, 15]
})
使用列标签名称选取整列数据
print(df[‘A’])
使用列标签名称和行标签选取单个值
print(df.loc[0, ‘A’])
使用行标签列表和列标签名称选取多个值
print(df.loc[[0, 2], [‘A’, ‘C’]])
使用布尔索引选取满足条件的数据
print(df[df[‘A’] > 2])
2. 使用整数索引(Integer-based Indexing)
使用整数索引选取单个值
print(df.iloc[0])
使用整数索引选取单个列
print(df.iloc[:, 0])
使用整数索引和布尔索引选取满足条件的数据
print(df.iloc[df[‘A’] > 2, :])
使用整数索引和切片选取数据
print(df.iloc[0:3, 1:3])
3. 使用行和列的混合格式索引
使用行列混合格式索引选取数据
print(df.loc[0:2, ‘A’:‘C’])
使用行列混合格式索引和布尔索引选取数据
print(df.loc[df[‘A’] > 2, ‘A’:‘C’])
4. 使用at()和iat()选取单个值
使用at()
根据行标签和列标签选取单个值
print(df.at[0, ‘A’])
使用iat()
根据整数索引选取单个值
print(df.iat[0, 0])
5. 使用query()方法查询数据
使用query()
方法查询满足条件的数据
print(df.query(‘A > 2’))
6. 使用xs()方法跨越多级索引选取数据
使用xs()
方法选取某列或某行
print(df.xs(2, level=‘A’)) # 选取