1.缺失值的产生原因
数据产生缺失,存在多种因素,录入数据时的疏忽或错误,例如错过数据记录、输入错误、设备故障等。由于设备故障、网络问题或存储介质损坏,导致数据丢失。从不同系统或文件中导入数据时的格式或解析错误。
2.发现缺失数据
使用Pandas中的count()函数以及shape()函数进行统计:count函数可以统计不为空数据的个数;shape()函数可以统计数据样本的个数;将shape()函数与count()函数做差就可以得到数据的缺失个数,再用缺失的个数除以样本的个数来计算样本中此字段的缺失率。
代码示例:
(user_info.shape[0]-user_info['age_range'].count(