统计年龄分布情况(5岁的间隔统计),绘制出年龄分布图。

3.统计年龄分布情况(5岁的间隔统计),绘制出年龄分布图。

第一个
这个和第一个非常相似,难点在于需要将出生年月转化为年龄。

data = data.copy()
data['年龄'] = [dt.datetime.today().year - i.year for i in pd.to_datetime(data["出生年月"])] 

如果不添加data.copy()会报错

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value instead

完整代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime as dt
# 读取 CSV文件生成DataFrame
df = pd.read_csv('D:/luohu3.csv')
print(df)

print(df.info())   # 获取 DataFrame 的摘要
print(df.head())     # 根据位置返回对象的前n行信息(默认值为5) ,用于快速测试数据集
print(df.describe())   # 生成描述性统计数据,总结数据集分布的集中趋势,分散和形状,不包括 NaN值。
# 数据预处理
data = df.dropna(0)    # 删除所有包含空值的行或列
print(data.info())
# data = df.drop_duplicates()
# print(data.info())

# 获取年龄数据
data = data.copy()
data['年龄'] = [dt.datetime.today().year - i.year for i in pd.to_datetime(data["出生年月"])]    # 日期数据如何处理
x = data["年龄"]
# 设置统计分值段范围
print(data.describe())       # 查看最大值与最小值
bins = np.arange(35, 65, 5)
time_bins = pd.cut(x, bins)    # 对数据进行离散化处理
print(time_bins)
# 按积分分割区间进行分组统计
df1 = data.groupby(time_bins)["年龄"].count()
print(df1)
# 绘制图形
df1.plot(kind="bar", rot=0)
plt.rcParams['font.sans-serif'] = ['Kaiti']   # 用来正常显示中文(黑体)常用字体包括: Kaiti-楷体; FangSong-仿宋; Microsoft YaHei-微软雅黑
plt.rcParams['axes.unicode_minus'] = False
plt.show()

在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南蓬幽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值