Python数据分析处理库——Pandas

最新推荐文章于 2022-01-11 15:42:58 发布

Lucia_0103

最新推荐文章于 2022-01-11 15:42:58 发布

阅读量240

点赞数

分类专栏： Python数据分析和机器学习实战

本文链接：https://blog.csdn.net/Lucia_0103/article/details/88422031

版权

5 篇文章 0 订阅

订阅专栏

DataFrame

使用Pandas库时，需提前引用：

import pandas as pd

Pandas库中的主要函数和操作：

读取数据：a = pd.read_csv('csv文件‘’)
数据类型：
- a的类型：type(a)：DataFrame
- a中元素包含的数据类型：a.dtypes：int，float，object，datatime，bool
显示
- 头几行数据：a.head() 默认显示5行，可在()中设定显示的行数
- 尾几行数据：a.tail()
结构：a.shape()
抽取数据
- 行数据：a.loc[行号]
- 列数据：a[“列名”]
- 具体数据：a.loc[行号, “列名”]
- 将所有列名以列表形式输出：a.columns.tolist()
设定索引：a.set_index('索引名‘, drop = True)
- True：原索引不能使用
- False：原索引也能使用
计算
- 相同维度的dataframe进行计算：对应位置进行相应的操作
- 不同维度的dataframe进行计算：分别计算
- 均值：a.mean()
- 对应列的最大值：a["列名“”].max()
可进行新建列并赋值的操作
排序：a.sort_values(“列名”, inplace = True, ascending =True)
- inplace：是否在原dataframe上操作
- ascending：升序还是降序排列
- 根据排序结果重新设置索引：a.reset_index(drop = True)
缺失值
- 判断：a.isnull()
- 去除：a.dropa(axis = 0, subset = “列名”)
两列数据之间的关系：a.pivot_table(index = “列名1”, value = “列名2”, aggfun)
- index：基准
- value：关系值
- aggfun：关系函数，默认为np.mean，可设置为np.sum等
自定义函数：a.apply(函数名)

使用前从Pandas库中引用Series：

from pandas import Series

DataFrame由Series构成，DataFrame中每一行（列）都是一个Series
Series由ndarray构成，因此Pandas库以Numpy库为基础，可使用其大部分操作
排序：
- sorted()
- reindex：类似于DataFrame中的reset_index
- sort_index：根绝索引排序
- sort_values：根据值排序
计算
- 相同维度的Series：对应位置进行相应的操作
- 不同维度的Series：分别计算

关注