知识与例子
1 Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。
导入模块,察看版本:
import pandas as pd
print(pd.__version__)
2 数据创建
Pandas 的数据类型主要有以下几种,它们分别是:Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(更多维数组)。其中 Series 和 DataFrame 应用的最为广泛,几乎占据了使用频率 90% 以上。
Series(一维数组):其可以储存整数、浮点数、字符串等类型的数据。Series 基本结构如下:
pandas.Series(data=None, index=None)
其中,data 可以是字典,或者NumPy 里的 ndarray 对象等。index 是数据索引,索引是 Pandas 数据结构中的一大特性,它主要的功能是帮助我们更快速地定位数据。
通过一维数组创建例子:
通过字典进行创建例子:
通过numpy进行创建例子:
Series的增删查改和运算
Series增加
1、纵向拼接:
Series删除
1、根据索引删除制定元素:
Series查看:
1、根据索引查看指定元素:
2、切片:
Series修改:
1、修改索引:
2、根据索引修改指定元素:
Series运算:
1、加法运算是按照索引计算,如果索引不同则填充为 NaN(空值)
2、减法运算是按照索引对应计算,如果不同则填充为 NaN(空值)。
3、乘法运算是按照索引对应计算,如果索引不同则填充为 NaN(空值)。
4、除法运算是按照索引对应计算,如果索引不同则填充为 NaN(空值)。
4、1、求最大值、最小值、求中位数、求和
import pandas as pd
s=[1,2,3,4]
s1=pd.Series(s)
s1.max()
s1.min()
s1.median()
s1.sum()
#4,1,2.5,10
创建DataFrame的几种方式:
1、通过组合Series:
2、通过numpy的二维数组转换;
通过一维列表或一维字典生成。
Series 与DataFrame的区别:有没有列索引。
DataFrame的增删查改和运算
DataFrame的增加
DataFrame的删除
DataFrame的查看
1 查看行索引:
2 查看列名:
3 查看数值。values 将 DataFrame 转换为 NumPy 数组,它们两个是好基友可以互相转化的。
4 查看大小:
5、查看头尾的N与例子
DataFrame(二维数组):
DataFrame 是 Pandas 中最为常见、最重要且使用频率最高的数据结构。DataFrame 和平常的电子表格或 SQL 表结构相似。你可以把 DataFrame 看成是 Series 的扩展类型,它仿佛是由多个 Series 拼合而成。它和 Series 的直观区别在于,数据不但具有行索引且具有列索引。基本结构:**pandas.DataFrame(data=None, index=None, columns=None)** DataFrame 结构大致由 3 部分组成,它们分别是列名称、索引和数据。如图: 创建DataFrame的几种方式:
1、通过组合Series:2、通过numpy的二维数组转换;通过一维列表或一维字典生成。Series 与DataFrame的区别:有没有列说索引。DataFrame的增删查改和运算****DataFrame的属性
DataFrame的增加
1 添加列数据
2 进行拼接
DataFrame的删除
1 虽然我们可以通过数据选择方法从一个完整的数据集中拿到我们需要的数据,但有的时候直接删除不需要的数据更加简单直接。Pandas 中,以 .drop 开头的方法都与数据删减有关。
删除空值(行或列方向)
2 删除重复值(行或列方向)
3 删除数据(行或列方向)
DataFrame的查看
1 查看行索引:  2 2查看列名:
 3 查看数值。values 将 DataFrame 转换为 3 3 3 3NumPy 数组,它们两个是好基友可以互相转化的。  4 查看大小:

5、查看头尾的N行数据:
6、对读取数据的大致预览:会输出该数据集每一列数据的计数、最大值、最小值等。
7、根据指定的列进行排序
8、切片
9、查询具体的列和多列
10 通过行与列索引查看数据:
语法df.iloc[] 的 [[行],[列]]
参看具体的行:
查看具体的某些行:
查看连续的行:
查看连续列:
通过行与列的切片索引可以查看数据中的任何元素。
举例:
11 通过列名字进行查看数据:语法df.loc[] 区别在通过列索引时候,可以通过列名进行,同时索引形式前后都重,只要列名出现,就会显示列名下的数据。例子:
12 按条件查找
13 关键字查找
1、查看内部数据类型:
DataFrame的修改
1、进行装转置:
2 大小写字母转化
3 修改某个数值的两种方式
4 首先是检测出缺失值,在pandas中缺失的值用NAT和NAN表示,检测时按照bool值返回。
进行检测:df.isna()
删除空值:
填充空值:
填充约束:不进行自动连续的填充,用limit的数字,约束连续值。
DataFrame的运算
1 拷贝一份数据
2、求平均,有数值的列会得出结果
3、按列求和
3 按列求和的最小值
文件读写
我们想要使用 Pandas 来分析数据,那么首先需要读取数据。大多数情况下,数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据,非常全面。下面,我们以最常用的 CSV 数据文件为例进行介绍
读取 举例读取csv方法,pandas.read_csv(),你可以直接传入一个相对路径,或者是网络 URL。
写入
补充:
DataFrame 是 Pandas 构成的核心。一切的数据,无论是外部读取还是自行生成,我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。因为 Pandas 针对数据操作的全部方法都是基于 Pandas 支持的数据结构设计的。也就是说,只有 Series 或者 DataFrame 才能使用 Pandas 提供的方法和函数进行处理。所以,学习真正数据处理方法之前,我们需要将数据转换生成为 Series 或 DataFrame 类型
数据可视化
来源:编程楼实验室
此为学习笔记,侵删