实习产物。
要求:导入一张表格,内有很多列数据。需要将所有列分为三类:数字、分类、时间
1.连续字段,统计:记录数、非空记录数、空值数(NULL、’’)、空值占比、去重记录数、最大值、最小值、均值、标准差、10-90&99分位数
2. 分类字段,统计:记录数、非空记录数、空值数(NULL、’’)、空值占比、去重记录数、每个分类的记录数即频度,记录数占比即频率
3.时间字段,统计:计算字段的最大日期,最小日期,by YYYYMM的记录数,生成柱状图
代码逻辑
分类逻辑
基本基于数据类型分类(可能需要在上游数据里先调好数据类型)
1.Time——数据类型为date; 此处只有datetime64[ns],如有不同可在include里删改
2.Categorial——数据类型为object∪(去重纪录数<=0.05*记录数) (有时会用不同数字代表不同情况ÿ