pandas—实战练习

最新推荐文章于 2024-02-12 00:13:47 发布

QiuBeiXianSeng

最新推荐文章于 2024-02-12 00:13:47 发布

阅读量476

点赞数

分类专栏：数据分析练习题 pandas 文章标签： python 数据分析经验分享

本文链接：https://blog.csdn.net/QiuBeiXianSeng/article/details/108614170

版权

本文通过一系列实战练习展示了pandas在数据分析中的应用。包括读取JSON数据、构建时间序列DataFrame、数据清洗与转换、异常值检测、统计分析、数据归一化等操作。同时涉及了数据分桶、计算薪资均值、评级划分、综合评价系数计算等实际问题，旨在提升对pandas库的掌握和理解。

摘要由CSDN通过智能技术生成

实战4
读取 population_data.json 数据统计以下5个国家2010年人口的占比情况。
country_list = [“Afghanistan”,“Albania”,“Arab World”,“Aruba”,“Bangladesh”]

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_json("population_data.json")
df.info()
df.head()

"""
- 时间：Year
- 国家：Country Name
- 人口数量：Value
"""
"""
透视表
- 列索引：时间：Year
- 行索引：国家：Country Name
- 值：人口数量：Value
"""
# pivot 实现透视表
popu_data = df.pivot_table(index="Country Name",columns="Year",values="Value")
popu_data

"""
实现取出对应国家2010年人口数据
- 选择数据
- 神奇索引
"""
country_list = ["Afghanistan","Albania","Arab World","Aruba","Bangladesh"]

country_data = popu_data.loc[country_list,2010]
country_data

"""
绘图
"""
country_data_list = country_data.values
country_data_list

plt.figure(figsize=(15,8))
plt.pie(country_data_list,labels=country_data.index,autopct="%1.2f%%")
plt.show()

实战5
需求：
• 以公司为行索引
• 时间为列索引
• 票面金额为值
• 最终将每月的数据保存到同一 .xls 文件中的不同 sheet中

最终实现效果：
在这里插入图片描述

df = pd.read_excel("合并1.xls")
df.info()
df.head()

"""
需求：
• 以公司为列索引
• 时间为行索引
• 票面金额为值
• 最终将每月的数据保存到同一 .xls 文件中的不同 sheet中
"""
# 生成透视表，并且index分组后指定聚合函数为np.sum
# aggfunc=np.sum 实现求和
df_pivot = pd.pivot_table(df,index="到期日/返售日",columns="额度占用人名称",values="票面金额",aggfunc=np.sum)
df_pivot.head()

&#