阿里云天池龙珠计划金融风控训练营-Task2学习笔记

金融风控数据挖掘-Task2学习笔记

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:
(https://tianchi.aliyun.com/specials/promotion/handsonai_gut)

一、学习知识点概要

1、数据预处理

  • 函数的学习
  • 缺失值填充
  • 时间格式处理

2、异常值处理

  • 函数的学习
  • 均方差
  • 箱型图

3、数据分桶

  • k-均值聚类
  • 分箱的基本原则

4、特征编码

  • labelEncode

5、特征选择

  • Filter
  • wrapper
  • Embedded

二、学习内容

1、数据预处理

函数的学习

  • select_dtypes()
    做数据分析时,需要对特征进行归类–类别型还是数值型,这时便使用到 select_dtypes函数

  • remove()
    下面有一个关于如何使用remove函数的博客,先把链接放在这便于以后学习
    python:remove方法的使用,remove、pop、del三者的区别

  • apply()
    当一个函数的参数存在于一个元组或者一个字典中时,用来间接的调用这个函数,并将元组或者字典中的参数按照顺序传递给参数
    Python中的lambda和apply用法

  • value_counts()
    是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。

  • sample()
    它的作用是从指定序列中随机获取指定长度的片断并随机排列,结果以列表的形式返回
    表达式为 random.sample(sequence, k)

  • nunique与unique
    unique()是以 数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
    nunique() Return number of unique elements in the object.即返回的是唯一值的个数

预处理

  • 缺失值填充
    填充的目的在上一个Task已经阐述过了,其重要性不言而喻。对于缺失值的填充 往往会影响比赛的结果,在比赛中不妨尝试多种填充然后比较结果选择结果最优 的一种;
    比赛数据相比真实场景的数据相对要“干净”一些,但是还是会有一定的“脏”数据存在,清洗一些异常值往往会获得意想不到的效果。

把所有缺失值替换为指定的值0

data_train = data_train.fillna(0)

向用缺失值上面的值替换缺失值

data_train = data_train.fillna(axis=0,method=
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值