1.维度查看
df.shape
返回(行,列)
import pandas as pd
# 创建一个简单的 DataFrame
data = {
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
# 查看 DataFrame 的形状
print(df.shape) # 输出: (3, 3)
2.类型查看
df.dtype
series中使用df.dtype
data = [1, 2, 3]
df=pd.Series(data)
print(df.dtype)
#输出int64
DataFrame中使用df[行名].dtype
import pandas as pd
# 创建一个简单的 DataFrame
data = {
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
print(df['A'].dtype)
#输出int64
3.查看简化信息
df.info()
用于打印出DataFrame的简要摘要信息
一般有
*类型
*行数
*列数
*index,column ,Non-Null Count(每列的非空值数量),Dtype
*内存使用情况(memory usage)
import pandas as pd
# 创建一个简单的 DataFrame
data = {
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
df.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3 entries, 0 to 2
# Data columns (total 3 columns):
# # Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 A 3 non-null int64
# 1 B 3 non-null int64
# 2 C 3 non-null int64
# dtypes: int64(3)
# memory usage: 200.0 bytes
4. 查看空值
df.isnull()用于检测DataFrame中缺失值的方法。它会返回一个与原始DataFrame相同大小的DataFrame(建立了一个新的副本),但其中的元素会被替代为布尔值,表示相应位置的值是否为确实值(NaN或False)
具体来说,如果一个数缺失,那么将输出True,不缺失则输出False
import pandas as pd
# 创建一个简单的 DataFrame
data = {
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
}
df = pd.DataFrame(data)
dk=df.isnull()#检测其是否含有空值
print(dk)
date={
'H':['A','B','C'],
'J':['V','B',None],
'K':['X','F',None]
}
# A B C
# 0 False False False
# 1 False False False
# 2 False False False
dz=pd.DataFrame(date)
dl=dz.isnull()
print(dl)
# H J K
# 0 False False False
# 1 False False False
# 2 False True True
# isnull可以检测numpy库的NAN和python库的None,但是检测到None的时候会将其自动转化为NAN
#isnull()检测空值,一般用fillna()来填充空值
#isnull()只能用来检测空值,不能检测异常的数据,不符合要求的数据结构
df[列].isnull()可以检测某一行的数据有无空值
5.查看行唯一值
df[列].unique()
获取DataFrame中所有唯一值的方法,它返回一个数组,包含了该列中所有不重复的值
import pandas as pd
date={
'H':['A','B','C'],
'J':['V','B',None],
'K':['X','F',None]
}
dz=pd.DataFrame(date)
dl=dz['H'].unique()#检测’H‘这一列所有的唯一值
print(dl)
# 输出:['A' 'B' 'C']
# dl=dz.unique()在语法上是错误的,DataFrame没有特别的方法来检测出所有数据中的特别的值,因为特别二字太宽泛了,它可能只多种不同的情况
6.查看数据
df.values
用于获取DataFrame对象df中的数据,并返回一个NumPy ndarray对象。这个ndarray对象包含了DataFrame中的所有数据,但不包括行索引和列标签.
import pandas as pd
date={
'H':['A','B','C'],
'J':['V','B','m'],
'K':['X','F','k']
}
dz=pd.DataFrame(date)
dl=dz.values
print(dl)
#输出:[['A' 'V' 'X']
# ['B' 'B' 'F']
# ['C' 'm' 'k']]
7.查看行列
df.columns查看列索引
df.index查看行标签
import pandas as pd
date={
'H':['A','B','C'],
'J':['V','B','m'],
'K':['X','F','k']
}
dz=pd.DataFrame(date)
print(dz.index)
print(dz.columns)
#输出:RangeIndex(start=0, stop=3, step=1)
# Index(['H', 'J', 'K'], dtype='object')
8.查看头和尾
df.head(n)查看前n行数据,如果n缺省则默认查看前5行数据
df.tail(n)查看后n行数据,如果n缺省则默认查看后5行数据
import pandas as pd
# 创建一个简单的DataFrame
data = {'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'B': [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]}
df = pd.DataFrame(data)
# 查看前5行数据(默认)
print(df.head())
# 查看后5行数据(默认)
print(df.tail())
#输出:
# A B
# 0 1 10
# 1 2 9
# 2 3 8
# 3 4 7
# 4 5 6
# A B
# 5 6 5
# 6 7 4
# 7 8 3
# 8 9 2
# 9 10 1
print(df.head(3))
print(df.tail(3))
#输出:
# A B
# 0 1 10
# 1 2 9
# 2 3 8
# A B
# 7 8 3
# 8 9 2
# 9 10 1