【项目实训】实验八 数据处理

1.数据清洗

实验背景

在进行贝叶斯分类之前重点是对数据进行预处理操作,如,缺失值的填充、将文字表述转为数值型、日期处理格式(处理成“年-月-日”三列属性或者以最早时间为基准计算差值)、无关属性的删除等方面。数据中存在大量连续值的属性,不能直接计算似然,需要将连续属性离散化。

实验数据

训练数据集train.csv包含9000条数据,测试数据集test.csv包含1000条数据。注意,训练集和测试集中都有缺失值存在。

以下是字段说明:

字段描述
loan_id贷款记录唯一标识
user_id借款人唯一标识
total_loan贷款数额
year_of_loan贷款年份
interest当前贷款利率
monthly_payment分期付款金额
grade贷款级别
employment_type所在公司类型
industry工作领域
work_year工作年限
home_exist是否有房
censor_status审核情况
issue_date贷款发放的月份
use贷款用途类别
post_code贷款人申请时邮政编码
region地区编码
debt_loan_ratio债务收入比
del_in_18month借款人过去18个月逾期30天以上的违约事件数
scoring_low借款人在贷款评分中所属的下限范围
scoring_high借款人在贷款评分中所属的上限范围
known_outstanding_loan借款人档案中未结信用额度的数量
known_dero贬损公共记录的数量
pub_dero_bankrup公开记录清除的数量
recircle_bal信贷周转余额合计
recircle_util循环额度利用率
initial_list_status贷款的初始列表状态
app_type是否个人申请
earlies_credit_mon借款人最早报告的信用额度开立的月份
title借款人提供的贷款名称
policy_code公开可用的策略代码=1新产品不公开可用的策略代码=2
f系列匿名特征匿名特征f0-f4,为一些贷款人行为计数特征的处理
early_return借款人提前还款次数
early_return_amount贷款人提前还款累积金额
early_return_amount_3mon近3个月内提前还款金额
isDefault贷款是否违约(预测标签)

参考资料

Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。

  • 一个强大的分析和操作大型结构化数据集所需的工具集

  • 基础是NumPy,提供了高性能矩阵的运算

  • 提供了大量能够快速便捷地处理数据的函数和方法

  • 应用于数据挖掘,数据分析

  • 提供数据清洗功能

实验步骤

  • 读取训练集和测试集,选择方法进行数据清洗

  • 填充空值,可以选择填充众数或者平均数或者其他

  • 文字表述转为数值型

  • 时间格式处理

  • 无关属性的删除.选择皮尔森系数法,方差法或者其他方法

  • 连续属性离散化.浮点数取整,等距法或者其他方法

  • 生成清洗后的CSV文件

实验结果

清洗前:

 

清洗后:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值