阿里云天池龙珠计划金融风控训练营-Task2学习笔记

最新推荐文章于 2024-06-03 14:13:26 发布

I_chasing_wind

最新推荐文章于 2024-06-03 14:13:26 发布

阅读量318

点赞数

文章标签：机器学习 python 数据分析

本文链接：https://blog.csdn.net/I_chasing_wind/article/details/116237118

版权

金融风控数据挖掘-Task2学习笔记

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容，学习链接为：
(https://tianchi.aliyun.com/specials/promotion/handsonai_gut)

1、数据预处理

2、异常值处理

3、数据分桶

4、特征编码

5、特征选择

select_dtypes（）
做数据分析时，需要对特征进行归类–类别型还是数值型，这时便使用到 select_dtypes函数
remove（）
下面有一个关于如何使用remove函数的博客，先把链接放在这便于以后学习
python：remove方法的使用，remove、pop、del三者的区别
apply()
当一个函数的参数存在于一个元组或者一个字典中时，用来间接的调用这个函数，并将元组或者字典中的参数按照顺序传递给参数
Python中的lambda和apply用法
value_counts()
是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。
sample()
它的作用是从指定序列中随机获取指定长度的片断并随机排列，结果以列表的形式返回
表达式为 random.sample(sequence, k)
nunique与unique
unique()是以数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）
nunique() Return number of unique elements in the object.即返回的是唯一值的个数

缺失值填充
填充的目的在上一个Task已经阐述过了，其重要性不言而喻。对于缺失值的填充往往会影响比赛的结果，在比赛中不妨尝试多种填充然后比较结果选择结果最优的一种；
比赛数据相比真实场景的数据相对要“干净”一些，但是还是会有一定的“脏”数据存在，清洗一些异常值往往会获得意想不到的效果。

把所有缺失值替换为指定的值0

data_train = data_train.fillna(0)

向用缺失值上面的值替换缺失值

data_train = data_train.fillna(axis=0,method=

关注