python获取对象唯一索引的函数_Python数据分析之Pandas库(笔记)

本文详细介绍了Pandas库中的Series和DataFrame数据结构,包括如何创建、索引操作、数据运算和可视化。重点讲解了重新索引、更换索引、选取数据、布尔选择以及算术运算等功能,还探讨了数据的统计分析和层次化索引,并通过小费数据集的案例展示了数据分析的过程。
摘要由CSDN通过智能技术生成

Pandas数据结构

pandas有两个基本的数据结构:Series和DataFrame。

1.1 创建Series数据

需要引入pandas模块:import pandas as pd

需要引入Series和DataFrame: from pandas import Series,DataFrame

Series数据:索引在左,值在右

Series有values和index属性,可返还值数据的数据形式和索引对象

Series具有索引对象,可通过其获取Series的单个或者一组值

Series运算都会保留索引和值之间的链接

Series数组中的索引和值一一对应,类似于Python字典数据,所以也可以通过字典数据来创建Series

Series对象和索引都有name属性,这样我们就可以给Series定义名称,让Series更具可读性

1.2 创建DataFrame数据

DataFrame数据有行索引和列索引,行索引类似于Excel表格中每行的编号(没有指定索引的情况下),列索引类似于Excel表格的列名(通常也可称为字段)

由于字典是无序的,因此可以通过columns指定列索引的排列顺序

当没有指定行索引的情况下,会使用0到N-1(N为数据的长度)作为行索引,这里也可以使用其他数据作为行索引。

通过values属性可以将DataFrame数据转换为二维数组。

下表中提供了部分常用的为创建DataFrame数据可传入的数据类型。

1.3 索引对象

Series的索引和DataFrame的行和列索引都是索引对象,用于负责管理轴标签和元数据。

索引对象是不可以进行修改的,如果修改就会报错

二、pandas索引操作

2.1 重新索引

重新索引并不是给索引重新命名,而是对索引重新排序,如果某个索引值不存在的话,就会引入缺失值(NaN)。

对于DataFrame数据来说,行和列索引都是可以重新索引的。

需要对插入的缺失值进行填充的话,可通过method参数来实现,参数值为ffill或pad时为向前填充,参数值为bfill或backfill时为向后填充。

reindex函数的各参数使用说明

2.2 更换索引

在DataFrame数据中,如果不 希望使用默认行索引的话ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值