机器学习之pandas库(二)小型案例展示

题目要求

数据仓库中的数据是从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。数据清洗就是把“脏”的“洗掉”,包括检查数据一致性,处理无效值和缺失值等。也就是说数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,具体要求如下:
要求:
1.读入data1二维数据表,打印输出前五行和后十行(15分)
2.将特征 “月还贷款额”dalete(15分)
3.对列名为“还款状态”进行操作groupby。在此基础上,并求各分组“贷款金额”列的sum和mean(15分)
4.计算“贷款金额”的mean值、min值、max值(15分)
5.计算“贷款金额”列的var、std(15分)
6.对数据进行sort操作,按照发放贷款日期:descending,贷款金额:ascending(6分)(25分)

题目解析

题中是一些pandas库的基本操作的实践应用,多加练习,孰能生巧。

代码如下

# 将一篇代码看成一个故事,那么,开始了。
# 导入我们需要使用的pands库
import pandas as pd

# 读取excel数据
# 同理,我们可以读取各种各样的文件数据
data = pd.read_excel(r'../datas/data1.xls')
# print(data)
# 打印输出前五行和后十行(15分)
# 对head 和tail 的练习,head从头开始读取,tail从尾部往前反向读取
print('前五行\n',data.head(5))
print('后十行\n',data.tail(10))

# 2.将特征 “月还贷款额”dalete(15分)
# 删除比较特殊,del 和所删除的属性,以空格连接
del data['月还贷款额']
# print('前五行\n',data.head(5))

# 3.对列名为“还款状态”进行操作groupby。在此基础上,并求各分组“贷款金额”列的sum和mean(15分)
# 分组操作属于pandas中很常用的操作,要灵活练习,熟练掌握。
gg = data[['还款状态','贷款金额']].groupby(by='还款状态')
print(gg.sum())
print(gg.mean())

# 4.计算“贷款金额”的mean值、min值、max值(15分)
# 5.计算“贷款金额”列的var、std(15分)
# 计算每列属性的各种加减乘除等……一些列操作如下所示
moneys = data[['贷款金额']]
print(moneys.mean())
print(moneys.min())
print(moneys.max())
print(moneys.var())
print(moneys.std())

# 6.对数据进行sort操作,按照发放贷款日期:descending,贷款金额:ascending(6分)(25分)
# 排序操作,有升序,降序,按照题意要求进行处理
data.sort_values(by=['发放贷款日期','贷款金额'],ascending=[False,True])
# print('后十行\n',data.tail(10))
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值