机器学习之pandas库（二）小型案例展示

最新推荐文章于 2024-08-20 18:41:51 发布

繁华三千东流水

最新推荐文章于 2024-08-20 18:41:51 发布

阅读量596

点赞数 1

分类专栏：机器学习算法思想及代码实现文章标签：机器学习 pandas库使用

本文链接：https://blog.csdn.net/qq872890060/article/details/98234198

版权

机器学习算法思想及代码实现专栏收录该内容

57 篇文章 17 订阅

订阅专栏

题目要求

数据仓库中的数据是从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。数据清洗就是把“脏”的“洗掉”，包括检查数据一致性，处理无效值和缺失值等。也就是说数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，具体要求如下：
要求：
1.读入data1二维数据表，打印输出前五行和后十行（15分）
2.将特征 “月还贷款额”dalete（15分）
3.对列名为“还款状态”进行操作groupby。在此基础上，并求各分组“贷款金额”列的sum和mean（15分）
4.计算“贷款金额”的mean值、min值、max值（15分）
5.计算“贷款金额”列的var、std（15分）
6.对数据进行sort操作，按照发放贷款日期：descending，贷款金额：ascending（6分）（25分）

题目解析

题中是一些pandas库的基本操作的实践应用，多加练习，孰能生巧。

代码如下

# 将一篇代码看成一个故事，那么，开始了。
# 导入我们需要使用的pands库
import pandas as pd

# 读取excel数据
# 同理，我们可以读取各种各样的文件数据
data = pd.read_excel(r'../datas/data1.xls')
# print(data)
# 打印输出前五行和后十行（15分）
# 对head 和tail 的练习，head从头开始读取，tail从尾部往前反向读取
print('前五行\n',data.head(5))
print('后十行\n',data.tail(10))

# 2.将特征 “月还贷款额”dalete（15分）
# 删除比较特殊，del 和所删除的属性，以空格连接
del data['月还贷款额']
# print('前五行\n',data.head(5))

# 3.对列名为“还款状态”进行操作groupby。在此基础上，并求各分组“贷款金额”列的sum和mean（15分）
# 分组操作属于pandas中很常用的操作，要灵活练习，熟练掌握。
gg = data[['还款状态','贷款金额']].groupby(by='还款状态')
print(gg.sum())
print(gg.mean())

# 4.计算“贷款金额”的mean值、min值、max值（15分）
# 5.计算“贷款金额”列的var、std（15分）
# 计算每列属性的各种加减乘除等……一些列操作如下所示
moneys = data[['贷款金额']]
print(moneys.mean())
print(moneys.min())
print(moneys.max())
print(moneys.var())
print(moneys.std())

# 6.对数据进行sort操作，按照发放贷款日期：descending，贷款金额：ascending（6分）（25分）
# 排序操作，有升序，降序，按照题意要求进行处理
data.sort_values(by=['发放贷款日期','贷款金额'],ascending=[False,True])
# print('后十行\n',data.tail(10))

繁华三千东流水

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之pandas库（二）小型案例展示

题目要求数据仓库中的数据是从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。数据清洗就是把“脏”的“洗掉”，包括检查数据一致性，处理无效值和缺失值等。也就是说数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，具体要求如下：要求：1.读入data1二维数据表，打印...
复制链接

扫一扫

专栏目录