数据探索与清洗

最新推荐文章于 2021-12-03 16:17:59 发布

doublejie1001

最新推荐文章于 2021-12-03 16:17:59 发布

阅读量272

点赞数

分类专栏： PYTHON学习

本文链接：https://blog.csdn.net/sinat_41636155/article/details/114330128

版权

PYTHON学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

数据探索与清洗
进过数据处理部分，我们获得了可用的数据集，现在我们可以利用调用shape属性查看数据的规模，调用info函数查看数据信息，调用describe函数查看数据分布。

# 查看数据规模 多少行 多少列
c_itcont.shape
(756205, 8)
# 查看整体数据信息，包括每个字段的名称、非空数量、字段的数据类型
c_itcont.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 756205 entries, 0 to 756204
Data columns (total 8 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   CAND_NAME             756205 non-null  object
 1   NAME                  756205 non-null  object
 2   STATE                 756160 non-null  object
 3   EMPLOYER              737413 non-null  object
 4   OCCUPATION            741294 non-null  object
 5   TRANSACTION_AMT       756205 non-null  int64 
 6   TRANSACTION_DT        756205 non-null  int64 
 7   CAND_PTY_AFFILIATION  756205 non-null  object
dtypes: int64(2), object(6)
memory usage: 51.9+ MB
通过上面的探索我们知道目前数据集的一些基本情况，目前数据总共有756205行，8列，总占用内存51.9+MB，STATE、EMPLOYER、OCCUPATION有缺失值，另外日期列目前为int64类型，需要进行转换为str类型

#空值处理，统一填充 NOT PROVIDED
c_itcont['STATE'].fillna('NOT PROVIDED',inplace=True)
c_itcont['EMPLOYER'].fillna('NOT PROVIDED',inplace=True)
c_itcont['OCCUPATION'].fillna('NOT PROVIDED',inplace=True)

# 对日期TRANSACTION_DT列进行处理
c_itcont['TRANSACTION_DT'] = c_itcont['TRANSACTION_DT'] .astype(str)
# 将日期格式改为年月日  7242020	
c_itcont['TRANSACTION_DT'] = [i[3:7]+i[0]+i[1:3] for i in c_itcont['TRANSACTION_DT'] ]

# 查看数据表中数据类型的列的数据分布情况
c_itcont.describe()

在这里插入图片描述

# 查看单列的数据发布情况
c_itcont['CAND_NAME'].describe()

在这里插入图片描述

# 计算每个党派的所获得的捐款总额，然后排序，取前十位
c_itcont.groupby("CAND_PTY_AFFILIATION").sum().sort_values("TRANSACTION_AMT",ascending=False).head(10)

在这里插入图片描述

# 查看每个职业捐款人的数量
c_itcont['OCCUPATION'].value_counts().head(10)

在这里插入图片描述

doublejie1001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录