目录
1.缺失值
在Pandas中,系统默认的缺失值可以是 None (Python中的
None
对象)或
np.nan
(NumPy中的
np.nan
对象)。这两种缺失值在Pandas中会被自动识别并处理。 当使用
None
作为缺失值时,Pandas会将其视为
object
类型;而使用
np.nan
作为缺失值时,Pandas会将其视为
float
类型
2.info函数
info
是Pandas中DataFrame对象的一个方法,用于获取关于DataFrame的基本信息摘要,包括行数、列数、每列的非空值数量、数据类型等。调用
info()
方法可以快速查看DataFrame的整体情况,帮助您了解数据集的结构和特征。
import pandas as pd
df=pd.DataFrame([[1,2,np.nan],[4,np.nan,6],
[5,6,7]])
df.info()
#运行结果: <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 3 entries, 0 to 2
# Data columns (total 3 columns):
# # Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 0 3 non-null int64
# 1 1 2 non-null float64
# 2 2 2 non-null float64
# dtypes: float64(2), int64(1)
# memory usage: 200.0 bytes
3. 检测缺失值
使用 isnull()
方法可以检测DataFrame中的缺失值,返回一个布尔类型的DataFrame,True表示缺失值。 使用 notnull()
方法则可以检测非缺失值,返回一个布尔类型的DataFrame,True表示非缺失值。
4. 处理缺失值
删除缺失值:使用 dropna()
方法可以删除包含缺失值的行或列,可以通过指定 axis
参数来删除行或列。
填充缺失值:使用 fillna()
方法可以填充缺失值,可以指定填充的值,如0、平均值、中位数等。 下面是一个简单的示例代码,演示如何处理缺失值:
import pandas as pd
# 创建包含缺失值的DataFrame
data = {'A': [1, 2, None, 4],
'B': ['a', None, 'c', 'd']}
df = pd.DataFrame(data)
# 检测缺失值
print(df.isnull())
#输出: A B
# 0 False False
# 1 False True
# 2 True False
# 3 False False
# 删除包含缺失值的行
df_dropna = df.dropna()
print(df_dropna)
#输出: A B
# 0 1.0 a
# 3 4.0 d
# 填充缺失值
df_fillna = df.fillna(0)
print(df_fillna)
#输出: A B
# 0 1.0 a
# 1 2.0 0
# 2 0.0 c
# 3 4.0 d