动手学数据分析3

动手学数据分析3

全部参考 datawhale-动手学数据分析

动手学数据分析1
动手学数据分析—pandas

探索性数据分析,开始前导入numpy和pandas

import numpy as np
import pandas as pd
print(pd.__version__)
1.0.3
df = pd.read_csv('train_chinese.csv')
df.head()

在这里插入图片描述

利用Pandas对示例数据进行排序

df.sort_index()  # 让行索引升序排序
df01.sort_index(axis = 1)  # 让列索引升序排序
df01.sort_index(axis=1, ascending=False)  # 让列索引降序排序,ascending=True为升序
df01.sort_values(by=['a', 'c'])  # 让任选两列数据同时降序排序

对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列)

df.sort_values(by=['票价', '年龄'],ascending=False).head()

在这里插入图片描述

利用Pandas进行算术计算

  • 两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。

通过泰坦尼克号数据如何计算出在船上最大的家族有多少人

max(df['堂兄弟/妹个数']+df['父母与小孩个数'])  # 10

Pandas describe()函数

分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据

df['父母与小孩个数'].describe()
# count    891.000000
# mean       0.381594
# std        0.806057
# min        0.000000
# 25%        0.000000
# 50%        0.000000
# 75%        0.000000
# max        6.000000
# Name: 父母与小孩个数, dtype: float64

【思考】从上面数据我们可以看出, 一共有891个人数据, 平均值约为:0.3, 标准差约为0.8,说明波动不大, 至少75%的人没有父母小孩, 拥有父母小孩最大值约为6,最小值为0。

df['票价'].describe()
# count    891.000000
# mean      32.204208
# std       49.693429
# min        0.000000
# 25%        7.910400
# 50%       14.454200
# 75%       31.000000
# max      512.329200
# Name: 票价, dtype: float64

【思考】从上面数据我们可以看出, 一共有891个票价数据, 平均值约为:32.20, 标准差约为49.69,说明票价波动特别大, 25%的人的票价是低于7.91的,50%的人的票价低于14.45,75%的人的票价低于31.00, 票价最大值约为512.33,最小值为0。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值