pandas数据处理基础

知识与例子

1 Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。
导入模块,察看版本:

import pandas as pd
print(pd.__version__)

2 数据创建
Pandas 的数据类型主要有以下几种,它们分别是:Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(更多维数组)。其中 Series 和 DataFrame 应用的最为广泛,几乎占据了使用频率 90% 以上。

Series(一维数组):其可以储存整数、浮点数、字符串等类型的数据。Series 基本结构如下:
pandas.Series(data=None, index=None)
其中,data 可以是字典,或者NumPy 里的 ndarray 对象等。index 是数据索引,索引是 Pandas 数据结构中的一大特性,它主要的功能是帮助我们更快速地定位数据。
通过一维数组创建例子:
在这里插入图片描述
通过字典进行创建例子:
在这里插入图片描述
通过numpy进行创建例子:
在这里插入图片描述
Series的增删查改和运算

Series增加
1、纵向拼接:
在这里插入图片描述

Series删除
1、根据索引删除制定元素:
在这里插入图片描述
Series查看:
1、根据索引查看指定元素:
在这里插入图片描述
2、切片:
在这里插入图片描述
Series修改:
1、修改索引:
在这里插入图片描述
2、根据索引修改指定元素:
在这里插入图片描述
Series运算:
1、加法运算是按照索引计算,如果索引不同则填充为 NaN(空值)
在这里插入图片描述
2、减法运算是按照索引对应计算,如果不同则填充为 NaN(空值)。
在这里插入图片描述
3、乘法运算是按照索引对应计算,如果索引不同则填充为 NaN(空值)。
在这里插入图片描述
4、除法运算是按照索引对应计算,如果索引不同则填充为 NaN(空值)。
在这里插入图片描述
4、1、求最大值、最小值、求中位数、求和

import pandas as pd 
s=[1,2,3,4]
s1=pd.Series(s)
s1.max()
s1.min()
s1.median()
s1.sum()
#4,1,2.5,10

创建DataFrame的几种方式:
1、通过组合Series:
在这里插入图片描述
2、通过numpy的二维数组转换;
在这里插入图片描述
通过一维列表或一维字典生成。
在这里插入图片描述

Series 与DataFrame的区别:有没有列索引。在这里插入图片描述
DataFrame的增删查改和运算

DataFrame的增加

DataFrame的删除

DataFrame的查看

  1  查看行索引: 

(从0开始,到319结束(行的最大值是318,重头不重尾),每一步是1))

  2 查看列名:

例举所有的列名
3 查看数值。values 将 DataFrame 转换为 NumPy 数组,它们两个是好基友可以互相转化的。
在这里插入图片描述
4 查看大小:
319行*7列
5、查看头尾的N与例子

DataFrame(二维数组):
DataFrame 是 Pandas 中最为常见、最重要且使用频率最高的数据结构。DataFrame 和平常的电子表格或 SQL 表结构相似。你可以把 DataFrame 看成是 Series 的扩展类型,它仿佛是由多个 Series 拼合而成。它和 Series 的直观区别在于,数据不但具有行索引且具有列索引。基本结构:**pandas.DataFrame(data=None, index=None, columns=None)**在这里插入图片描述 DataFrame 结构大致由 3 部分组成,它们分别是列名称、索引和数据。如图: 在这里插入图片描述创建DataFrame的几种方式:
1、通过组合Series:在这里插入图片描述2、通过numpy的二维数组转换;在这里插入图片描述通过一维列表或一维字典生成。在这里插入图片描述Series 与DataFrame的区别:有没有列说索引。在这里插入图片描述DataFrame的增删查改和运算****DataFrame的属性

DataFrame的增加
1 添加列数据
在这里插入图片描述
2 进行拼接
在这里插入图片描述
DataFrame的删除

1 虽然我们可以通过数据选择方法从一个完整的数据集中拿到我们需要的数据,但有的时候直接删除不需要的数据更加简单直接。Pandas 中,以 .drop 开头的方法都与数据删减有关。
删除空值(行或列方向)
在这里插入图片描述
2 删除重复值(行或列方向)
在这里插入图片描述
3 删除数据(行或列方向) 上面是列标签,左边是行标签

DataFrame的查看
1 查看行索引: (从0开始,到319结束(行的最大值是318,重头不重尾),每一步是1)) 2 2查看列名:
例举所有的列名 3 查看数值。values 将 DataFrame 转换为 3 3 3 3NumPy 数组,它们两个是好基友可以互相转化的。 在这里插入图片描述 4 查看大小:
319行*7列
5、查看头尾的N行数据:
在这里插入图片描述
6、对读取数据的大致预览:会输出该数据集每一列数据的计数、最大值、最小值等。

7、根据指定的列进行排序
在这里插入图片描述
8、切片
在这里插入图片描述
9、查询具体的列和多列
在这里插入图片描述
在这里插入图片描述
10 通过行与列索引查看数据:
语法df.iloc[] 的 [[行],[列]]
参看具体的行:
在这里插入图片描述
查看具体的某些行:
在这里插入图片描述
查看连续的行: 在这里插入图片描述
查看连续列:
在这里插入图片描述
通过行与列的切片索引可以查看数据中的任何元素。
举例:在这里插入图片描述
11 通过列名字进行查看数据:语法df.loc[] 区别在通过列索引时候,可以通过列名进行,同时索引形式前后都重,只要列名出现,就会显示列名下的数据。例子:
在这里插入图片描述
12 按条件查找
单条件
多条件
13 关键字查找
在这里插入图片描述
1、查看内部数据类型:
在这里插入图片描述
DataFrame的修改
1、进行装转置:
在这里插入图片描述
2 大小写字母转化
在这里插入图片描述
3 修改某个数值的两种方式
在这里插入图片描述
在这里插入图片描述

4 首先是检测出缺失值,在pandas中缺失的值用NAT和NAN表示,检测时按照bool值返回。
创建一个缺失数据表格
进行检测:df.isna()
在这里插入图片描述
删除空值:
在这里插入图片描述
填充空值:

进行0填充
使用缺失值前的数填充
使用缺失值之后值填充、列顺序的下一个
使用该列的平均值填充
使用插值法填充
填充约束:不进行自动连续的填充,用limit的数字,约束连续值。
在这里插入图片描述
DataFrame的运算
1 拷贝一份数据
在这里插入图片描述2、求平均,有数值的列会得出结果
在这里插入图片描述
3、按列求和
在这里插入图片描述
3 按列求和的最小值
在这里插入图片描述

文件读写
我们想要使用 Pandas 来分析数据,那么首先需要读取数据。大多数情况下,数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据,非常全面。下面,我们以最常用的 CSV 数据文件为例进行介绍
读取 举例读取csv方法,pandas.read_csv(),你可以直接传入一个相对路径,或者是网络 URL。
csv
xlsx
写入
在这里插入图片描述
在这里插入图片描述

补充:
DataFrame 是 Pandas 构成的核心。一切的数据,无论是外部读取还是自行生成,我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。因为 Pandas 针对数据操作的全部方法都是基于 Pandas 支持的数据结构设计的。也就是说,只有 Series 或者 DataFrame 才能使用 Pandas 提供的方法和函数进行处理。所以,学习真正数据处理方法之前,我们需要将数据转换生成为 Series 或 DataFrame 类型

数据可视化
根据可视化需求进行参数的设定

来源:编程楼实验室
此为学习笔记,侵删

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值