Python数据分析 - 机器学习笔记：第一章数据分析 - 1.3.3.分组运算

最新推荐文章于 2022-10-02 21:16:05 发布

WinvenChang

最新推荐文章于 2022-10-02 21:16:05 发布

阅读量532

点赞数

分类专栏： Python全栈工程师学习笔记文章标签： pandas统计运算 pandas分组运算 pandas numpy

本文链接：https://blog.csdn.net/u014257214/article/details/108506301

版权

本文是《Python数据分析 - 机器学习工程师》课程的笔记，主要讲解pandas的统计方法和分组运算。内容涵盖集中量统计、分组运算的多种方式，如按特征分组、多特征分组、自定义分组键，以及分组后的筛选、转换等操作，并通过实例展示了在数据分析中的应用。

摘要由CSDN通过智能技术生成

前言：本文是学习网易微专业的《python全栈工程师》中的《数据分析 - 机器学习工程师》专题的课程笔记，欢迎学习交流。

import numpy as np
import pandas as pd

df = pd.read_csv('./datasets/gdp-pop.csv')
df.sample(5)  # 随机抽取 5 个样本

运行结果：
在这里插入图片描述
将某一列的值设置为索引：

df = df.set_index("City_Name")
df.head()  # 默认显示前 5 个样本

运行结果：
在这里插入图片描述
集中量统计方法：
1）、求和

df.sum()  # 默认是一列一列的求和

运行结果：
在这里插入图片描述
2）、求平均值

df.mean()

运行结果：
在这里插入图片描述
3）、求中位数

df.median()

运行结果：
在这里插入图片描述
说明：以上方法没参数时，默认以特征方向为准（即列的方向），如果想以行的方向为准，可以带参数axis=1

df.mean(axis=1)

在这里插入图片描述
备注：上面的以行方向为准计算的平均值，没实际意义，因为 GDP和 population的单位不同，求平均值没意义。

为了更进一步pandas中统计运算的特点，这里先杜撰一个缺失值：

df.lo['Hongloushi'] = np.nan
df

运行结果：
在这里插入图片描述
求和时缺失值不参与计算

df.sum()

运行结果：
在这里插入图片描述
获取数据集的统计结果：

df.describe()

运行结果：
在这里插入图片描述
获取数据集的信息结果：

df.info()

运行结果：
在这里插入图片描述

在这里插入图片描述

df = pd.DataFrame({
   "subject":['math', 'physics', 'english', 'math', 'physics', 'english'],
'score':[90, 80, 70, 95, 85, 75]})
df

运行结果：
在这里插入图片描述
2.2.

关注

专栏目录