.value_counts():
value_counts常用于数据表的计数及排序,它可以用来查看数据表中,指定列里有多少个不同的数据值,并计算每个不同值有在该列中的个数,同时还能根据需要进行排序。
# 统计前4列的数值类别 保存为字典的形式 可以观察字典的键值是否是整形来判断数据是否为类别型
pd.Series({ft: [train[ft].value_counts().round(3).iloc[:5].to_dict()] for ft in train.columns}, name='top_5_counts_train')
.round(n):
四舍五入保留小数点后n位数字。
.clip(a, b):
在输入阈值处修剪值,小于a或大于b的都将被修改为a或b。
pd.DataFrame(index=X.columns):
使用 df = pd.DataFrame(index=X.columns) 创建一个空的df,其中df的索引为X的列名,接下来只需要按照需求为df添加列名跟对应数据即可。