【项目实训】实验八数据处理

最新推荐文章于 2023-03-25 00:17:15 发布

森哥0708

最新推荐文章于 2023-03-25 00:17:15 发布

阅读量780

点赞数

分类专栏：项目实训文章标签： python 开发语言数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42430054/article/details/124834788

版权

项目实训专栏收录该内容

11 篇文章 2 订阅

订阅专栏

1.数据清洗

实验背景

在进行贝叶斯分类之前重点是对数据进行预处理操作，如，缺失值的填充、将文字表述转为数值型、日期处理格式（处理成“年-月-日”三列属性或者以最早时间为基准计算差值）、无关属性的删除等方面。数据中存在大量连续值的属性，不能直接计算似然，需要将连续属性离散化。

实验数据

训练数据集train.csv包含9000条数据，测试数据集test.csv包含1000条数据。注意，训练集和测试集中都有缺失值存在。

以下是字段说明：

字段	描述
loan_id	贷款记录唯一标识
user_id	借款人唯一标识
total_loan	贷款数额
year_of_loan	贷款年份
interest	当前贷款利率
monthly_payment	分期付款金额
grade	贷款级别
employment_type	所在公司类型
industry	工作领域
work_year	工作年限
home_exist	是否有房
censor_status	审核情况
issue_date	贷款发放的月份
use	贷款用途类别
post_code	贷款人申请时邮政编码
region	地区编码
debt_loan_ratio	债务收入比
del_in_18month	借款人过去18个月逾期30天以上的违约事件数
scoring_low	借款人在贷款评分中所属的下限范围
scoring_high	借款人在贷款评分中所属的上限范围
known_outstanding_loan	借款人档案中未结信用额度的数量
known_dero	贬损公共记录的数量
pub_dero_bankrup	公开记录清除的数量
recircle_bal	信贷周转余额合计
recircle_util	循环额度利用率
initial_list_status	贷款的初始列表状态
app_type	是否个人申请
earlies_credit_mon	借款人最早报告的信用额度开立的月份
title	借款人提供的贷款名称
policy_code	公开可用的策略代码=1新产品不公开可用的策略代码=2
f系列匿名特征	匿名特征f0-f4，为一些贷款人行为计数特征的处理
early_return	借款人提前还款次数
early_return_amount	贷款人提前还款累积金额
early_return_amount_3mon	近3个月内提前还款金额
isDefault	贷款是否违约（预测标签）

参考资料

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。

一个强大的分析和操作大型结构化数据集所需的工具集
基础是NumPy，提供了高性能矩阵的运算
提供了大量能够快速便捷地处理数据的函数和方法
应用于数据挖掘，数据分析
提供数据清洗功能

实验步骤

读取训练集和测试集,选择方法进行数据清洗
填充空值,可以选择填充众数或者平均数或者其他
文字表述转为数值型
时间格式处理
无关属性的删除.选择皮尔森系数法,方差法或者其他方法
连续属性离散化.浮点数取整,等距法或者其他方法
生成清洗后的CSV文件

实验结果

清洗前:

清洗后:

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【项目实训】实验八数据处理

1.数据清洗实验背景在进行贝叶斯分类之前重点是对数据进行预处理操作，如，缺失值的填充、将文字表述转为数值型、日期处理格式（处理成“年-月-日”三列属性或者以最早时间为基准计算差值）、无关属性的删除等方面。数据中存在大量连续值的属性，不能直接计算似然，需要将连续属性离散化。实验数据训练数据集train.csv包含9000条数据，测试数据集test.csv包含1000条数据。注意，训练集和测试集中都有缺失值存在。以下是字段说明：字段描述 loan_id 贷款记录唯一标识
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。