金融风控数据挖掘-Task2学习笔记
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:
(https://tianchi.aliyun.com/specials/promotion/handsonai_gut)
一、学习知识点概要
1、数据预处理
- 函数的学习
- 缺失值填充
- 时间格式处理
2、异常值处理
- 函数的学习
- 均方差
- 箱型图
3、数据分桶
- k-均值聚类
- 分箱的基本原则
4、特征编码
- labelEncode
5、特征选择
- Filter
- wrapper
- Embedded
二、学习内容
1、数据预处理
函数的学习
-
select_dtypes()
做数据分析时,需要对特征进行归类–类别型还是数值型,这时便使用到 select_dtypes函数 -
remove()
下面有一个关于如何使用remove函数的博客,先把链接放在这便于以后学习
python:remove方法的使用,remove、pop、del三者的区别 -
apply()
当一个函数的参数存在于一个元组或者一个字典中时,用来间接的调用这个函数,并将元组或者字典中的参数按照顺序传递给参数
Python中的lambda和apply用法 -
value_counts()
是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。 -
sample()
它的作用是从指定序列中随机获取指定长度的片断并随机排列,结果以列表的形式返回
表达式为 random.sample(sequence, k) -
nunique与unique
unique()是以 数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
nunique() Return number of unique elements in the object.即返回的是唯一值的个数
预处理
- 缺失值填充
填充的目的在上一个Task已经阐述过了,其重要性不言而喻。对于缺失值的填充 往往会影响比赛的结果,在比赛中不妨尝试多种填充然后比较结果选择结果最优 的一种;
比赛数据相比真实场景的数据相对要“干净”一些,但是还是会有一定的“脏”数据存在,清洗一些异常值往往会获得意想不到的效果。
把所有缺失值替换为指定的值0
data_train = data_train.fillna(0)
向用缺失值上面的值替换缺失值
data_train = data_train.fillna(axis=0,method=