Python数据分析 - 机器学习笔记:第一章数据分析 - 1.3.3.分组运算

本文是《Python数据分析 - 机器学习工程师》课程的笔记,主要讲解pandas的统计方法和分组运算。内容涵盖集中量统计、分组运算的多种方式,如按特征分组、多特征分组、自定义分组键,以及分组后的筛选、转换等操作,并通过实例展示了在数据分析中的应用。
摘要由CSDN通过智能技术生成

前言:本文是学习网易微专业的《python全栈工程师》 中的《数据分析 - 机器学习工程师》专题的课程笔记,欢迎学习交流。

一、课程目标
  • 掌握常规统计方法
  • 掌握分组运算方法
二、详情解读
2.1.统计
  • 集中量:求和、平均值、中位数、最大/小值
import numpy as np
import pandas as pd

df = pd.read_csv('./datasets/gdp-pop.csv')
df.sample(5)  # 随机抽取 5 个样本

运行结果:
在这里插入图片描述
将某一列的值设置为索引:

df = df.set_index("City_Name")
df.head()  # 默认显示前 5 个样本

运行结果:
在这里插入图片描述
集中量统计方法:
1)、求和

df.sum()  # 默认是一列一列的求和

运行结果:
在这里插入图片描述
2)、求平均值

df.mean()

运行结果:
在这里插入图片描述
3)、求中位数

df.median()

运行结果:
在这里插入图片描述
说明:以上方法没参数时,默认以特征方向为准(即列的方向),如果想以行的方向为准,可以带参数axis=1

df.mean(axis=1)

在这里插入图片描述
备注:上面的以行方向为准计算的平均值,没实际意义,因为 GDPpopulation的单位不同,求平均值没意义。

为了更进一步pandas中统计运算的特点,这里先杜撰一个缺失值:

df.lo['Hongloushi'] = np.nan
df

运行结果:
在这里插入图片描述
求和时缺失值不参与计算

df.sum()

运行结果:
在这里插入图片描述
获取数据集的统计结果:

df.describe()  

运行结果:
在这里插入图片描述
获取数据集的信息结果:

df.info()

运行结果:
在这里插入图片描述

2.2.分组运算

在这里插入图片描述

df = pd.DataFrame({
   "subject":['math', 'physics', 'english', 'math', 'physics', 'english'],
'score':[90, 80, 70, 95, 85, 75]})
df

运行结果:
在这里插入图片描述
2.2.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值