2020-09-22

最新推荐文章于 2021-11-02 21:28:17 发布

qq_24990115

最新推荐文章于 2021-11-02 21:28:17 发布

阅读量127

点赞数

本文链接：https://blog.csdn.net/qq_24990115/article/details/108723642

版权

@[task3 金融风控学习打卡]、

内容介绍

数据预处理
缺失值的填充
时间格式处理
对象类型特征转换到数值
异常值处理
基于3segama原则
基于箱型图
数据分箱
固定宽度分箱
分位数分箱
离散数值型数据分箱
连续数值型数据分箱
卡方分箱（选做作业）
特征交互
特征和特征之间组合
特征和特征之间衍生
其他特征衍生的尝试（选做作业）
特征编码
one-hot编码
label-encode编码
特征选择
1 Filter
2 Wrapper （RFE）
3 Embedded

特征预处理

这里介绍了数据缺失值的填充，时间格式特征的转化处理，某些对象类别特征的处理。
首先我们查找出数据中的对象特征和数值特征

numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
label = 'isDefault'
numerical_fea.remove(label)

缺失值填充
把所有缺失值替换为指定的值0
data_train = data_train.fillna(0)
向用缺失值上面的值替换缺失值
data_train = data_train.fillna(axis=0,method=‘ffill’)
纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值
data_train = data_train.fillna(axis=0,method=‘bfill’,limit=2)
#按照平均数填充数值型特征
data_train[numerical_fea] = data_train[numerical_fea].fillna(data_train[numerical_fea].median())
data_test_a[numerical_fea] = data_test_a[numerical_fea].fillna(data_train[numerical_fea].median())
#按照众数填充类别型特征
data_train[category_fea] = data_train[category_fea].fillna(data_train[category_fea].mode())
data_test_a[category_fea] = data_test_a[category_fea].fillna(data_train[category_fea].mode())
时间格式处理

#转化成时间格式
for data in [data_train, data_test_a]:
    data['issueDate'] = pd.to_datetime(data['issueDate'],format='%Y-%m-%d')
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    #构造时间特征
    data['issueDateDT'] = data['issueDate'].apply(lambda x: x-startdate).dt.days
data_train['employmentLength'].value_counts(dropna=False).sort_index()

对象特征类型转换到数值

def employmentLength_to_int(s):
    if pd.isnull(s):
        return s
    else:
        return np.int8(s.split()[0])
for data in [data_train, data_test_a]:
    data['employmentLength'].replace(to_replace='10+ years', value='10 years', inplace=True)
    data['employmentLength'].replace('< 1 year', '0 years', inplace=True)
    data['employmentLength'] = data['employmentLength'].apply(employmentLength_to_int)
data['employmentLength'].value_counts(dropna=False).sort_index()

类别特征处理

cate_features = [‘grade’, ‘subGrade’, ‘employmentTitle’, ‘homeOwnership’, ‘verificationStatus’, ‘purpose’, ‘postCode’, ‘regionCode’,
‘applicationType’, ‘initialListStatus’, ‘title’, ‘policyCode’]
for f in cate_features:
print(f, ‘类型数：’, data[f].nunique())

异常值处理

当你发现异常值后，一定要先分清是什么原因导致的异常值，然后再考虑如何处理。首先，如果这一异常值并不代表一种规律性的，而是极其偶然的现象，或者说你并不想研究这种偶然的现象，这时可以将其删除。其次，如果异常值存在且代表了一种真实存在的现象，那就不能随便删除。在现有的欺诈场景中很多时候欺诈数据本身相对于正常数据勒说就是异常的，我们要把这些异常点纳入，重新拟合模型，研究其规律。能用监督的用监督模型，不能用的还可以考虑用异常检测的算法来做。
注意test的数据不能删。（未完，待续。。。）