数据分析-Pandas的类型数据的缺失处理
数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律?
数据表,时间序列数据在数据分析建模中很常见,例如天气预报,空气状态监测,股票交易等金融场景。数据分析过程中重新调整,重塑数据表是很重要的技巧,此处选择Titanic数据,以及巴黎、伦敦欧洲城市空气质量监测 N O 2 NO_2 NO2数据作为样例。
数据分析
实验数据分析处理,股票序列,时间序列,信号序列,有时候表格的数据并不完全是数值类型,也有可能是字符串,或者其他数据,需要做分类处理。pandas如何控制数据分类处理呢?需要配置哪些参数?
类型数据的缺失值特点
Pandas 主要使用np.nan
来表示缺失的数据。默认的,它是不包括在数值计算中。
缺失值不会包含在类型中的 , 仅在序列的数值中。 当使用 Categorical 时,缺失的值的代码为 -1。
In [1]: s = pd.Series(["a", "b", np.nan, "a"], dtype="category")
# 两种类型,NaN 缺失值
In [2]: s
Out[2]:
0 a
1 b
2 NaN
3 a
dtype: category
Categories (2, object): ['a', 'b']
# 代码为 -1
In [3]: s.cat.codes
Out[3]:
0 0
1 1
2 -1
3 0
dtype: int8
类型数据的缺失值处理方法
处理类型数据的缺失数据的方法,判断缺失值 isna(), 填充缺失值 fillna(), 丢弃缺失值dropna() 等,都能正常工作:
In [1]: s = pd.Series(["a", "b", np.nan], dtype="category")
In [2]: s
Out[2]:
0 a
1 b
2 NaN
dtype: category
Categories (2, object): ['a', 'b']
In [3]: pd.isna(s)
Out[3]:
0 False
1 False
2 True
dtype: bool
In [4]: s.fillna("a")
Out[4]:
0 a
1 b
2 a
dtype: category
Categories (2, object): ['a', 'b']
以上代码只是一个简单示例,示例代码中的表达式可以根据实际问题进行修改。
后面介绍下其他的展示形式。
觉得有用 收藏 收藏 收藏
点个赞 点个赞 点个赞
End
GPT专栏文章:
GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案
GPT实战系列-LangChain + ChatGLM3构建天气查询助手
GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)
GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案