【python数据分析】Pandas库及基本操作

本文介绍了Python数据分析库Pandas的基础知识,包括Series和DataFrame两种核心数据类型。Series是一维带标签的数据结构,可由列表、标量或字典创建,支持类似ndarray和字典的操作。DataFrame是二维表格型数据结构,有行索引和列索引。文章还讨论了数据操作,如索引、重排、删除以及算术和比较运算。
摘要由CSDN通过智能技术生成

学习资料:

[4.2.1]--Pandas库的介绍_哔哩哔哩_bilibili

1 Pandas库的介绍

  • pd.Series(range(20))

生成序列
  • pd.cumsum()

计算前n项的累加和

pandas是python第三方库,是基于numpy实现的,经常与numpy和matplotlib一同使用

import pandas as pd

Pandas主要提供两个数据类型:Series和DataFrame

Series是pandas库的一维数据类型

DataFrame是pandas库的二维数据类型

基于上述两个类型,pandas提供了各类操作,包括:

基本操作、运算操作、特征类操作、关联类操作

2 Pandas库的Series类型

Series类型由一组数据及与之相关的数据索引组成

  • pd.Series([],index=[])

传入列表,构造Series对象
对index传入一个列表时,可以作为自定义索引与第一个列表一一对应,传入自定义索引时也可以省略“index=”,直接传入第二个列表作为自定义索引
Series中的每个数据必对应一个索引,或是自动索引,或是自定义索引

2.1 Series类型的创建

Series可通过以下类型创建

  • python列表

  • 标量值

  • python字典

可以用自定义索引改变传入字典的形状和顺序,这个过程可以看作index从字典中进行了选择操作

  • numpy.ndarray

现在同样用np.arange来生成对应的index列表

总结-Series类型可以由如下类型创建

  • python列表,要求index与列表元素的个数一致

  • 标量值,index表示Series的尺寸

  • python字典,键值对中的键是索引,index从字典中进行键值对选择操作

  • ndarray,索引和数据都可以通过ndarray类型创建

2.2 Series类型的基本操作

Series的操作类似ndarray和python字典

  • .index

获得所有索引

  • .values

获得所有数据

2.2.1 Series与ndarray操作的相同之处

  • 采用[]索引,与ndarray的索引方法相同

Series的自动索引和自定义索引是并存的,但是不可以混合使用

  • 切片方法也与ndarray相同,返回的类型同样是Series类型,这点是不同于ndarray索引的

2.2.2 Series与字典操作的相同之处

  • 通过自定义索引访问

  • 保留字in操作,用来判断Series的自定义索引中是否存在这个索引值

  • 使用.get()方法

表示从Series类型b中提取'f'索引的值,若该索引值不存在,则返回100

2.3 Series类型对齐操作

Series的运算是基于索引的运算

2.4 Series的name属性

Series对象和索引都可以有一个名字,存储在属性.name中

2.5 Series类型的修改

2.6 小结

Series是一维带“标签”的数组

Series的基本操作类似ndarray和字典,根据索引对齐

3 Pandas库的DataFrame类型

DataFrame是pandas的二维数据类型,可以理解为一个表格,纵向的索引叫index(这个轴叫0轴,即axis=0),横向的表明不同列的索引叫column(这个轴叫1轴,即axis=1)

3.1 DataFrame类型的创建

  • 二维ndarray对象

  • 由一维ndarray、列表、字典、元组或Series构成的字典

传入由Series构成的字典

传入由列表构成的字典

  • Series类型

  • 其他的DataFrame类型

3.2 DataFrame类型的基本操作

3.2.1 DataFrame类型的基本操作

  • .index

  • .columns

0轴索引和1轴索引的对象都是Index

Series和DataFrame的索引是Index类型,Index对象是不可修改类型

  • .values

  • .columes.insert(要新增的列的自动索引值,'新增列的名字')

  • DataFrame的行索引和列索引

  • 获得DataFrame中某个位置的数据

3.2.2 索引类型的常用方法

4 Pandas库的数据类型操作

4.1 增加和重排——reindex

  • .reindex()

改变或重排Series或DataFrame的索引

  • .reindex()的参数

看看fill_value参数的使用

4.2 删除——drop

删除Series或DataFrame指定的行或列索引

如果要删除DataFrame中的列索引,要指定参数axis=1(axis默认为行索引)

5 Pandas库的数据类型运算

5.1 pandas库的算数运算法则

  • 算术运算根据行列索引,补齐后运算,运算默认产生浮点数

补齐时缺项自动填充为NaN

  • 二维和一维、一维和零维间为广播运算

广播运算:二维的每一行都与一维对应的值进行运算

若要让二维的每一列与一维对应的值进行运算,则需要使用.sub()方法指定axis=0

  • 采用+-*/符号进行的二元运算产生新的对象

5.2 方法运算

用.add()代替加法运算,可指定补齐时的缺项统一填某一个值

用.sub()代替减法运算,可指定一维Series参与0轴运算

5.3 比较运算

  • 采用>< >= <= == !=等符号进行二元运算产生布尔对象

  • 比较运算只能比较相同索引的元素,不进行补齐

  • 二维和一维、一维和零维间为广播运算

广播运算默认按行(1轴)进行比较

6 总结

今天没有记录学习时长,大概一个多钟到两个钟看完的吧

开心啊!明天就剩下一点点了,这个专栏快要暂时结章咯

去成为你想要成为的人吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值