Python数据分析与可视化笔记 八 Pandas 处理结构化数据 Series

Pandas 提供了方便的类表格的统计操作和类 SQL 操作,使之可以方便地做一些数据预处理工作。Pandas 可以完成以下工作:

(1)索引对象:包括简单的索引和多层次的索引

(2)引擎集成组合:用于汇总和转换数据集合

(3)日期范围生成器以及自定义日期偏移

(4)输入工具和输出工具:从各种格式的文件中加载表格数据,以及从 PyTables/HDF5格式中保存和加载 Pandas 对象。

(5)标准数据结构的“稀疏”形式:可以用于存储大量缺失或者大量一致的数据。

(6)移动窗口统计:如滚动平均值、滚动标准偏差等。

Pandas 提供了两种主要的数据结构: SeriesDataFrame。两者分别适用于一维和多维数据

Series

Series 类似于一维数组与字典的结合,是一个有标签的一维数组,标签在 Pandas 中有对应的数据类型 index。

Series 的创建

Series 创建时可以接收多种输入,包括list、ndarray、dict甚至标量。index 参数可以选择性地传入。Series 对象输出时,每一行为 Series 中的一个元素,左侧为索引,右侧为值。

import pandas as pd
from pandas import DataFrame, Series

obj_a = Series([1,2,3,4])
print(obj_a)

 Series 的访问

Series 既像一个 ndarray ,同时也像一个固定大小的 dict,所以可以通过 iloc 和 loc 函数对 Series 进行访问。此外,可以直接通过类似数组和类似属性的方式对其进行访问。

Series 的操作

对 ndarray 可以进行的操作对 Series 可以同样进行,但由于索引的存在,在操作时存在数组对齐的问题。

Series 的 name 属性

Series 对象的索引与值可以分别通过 index 与 values 属性获取。

import pandas as pd
from pandas import DataFrame, Series

obj_a = Series([1,2,3,4])
print(obj_a)
print(obj_a.index)
print(obj_a.values)

 DataFrame

 DataFrame 是有标签的二维数组,类似于一个表格或 SQL 中的 table , 或是一个Series 对象的 dict。分为行索引 (index) 和列索引 (columns)。

 DataFrame 的创建

 DataFrame 创建时可以接收多种输入,包括一维的 ndarray、 list、dict或 Series;二维的ndarray,一个Series,其他的 DataFrame 等。创建  DataFrame 时,行索引和列索引可以指定,若没有明确指出,默认从 0 开始。对于通过 Series 的 dict 创建  DataFrame 的情况,若指定 index ,则会丢弃未与指定 index 相匹配的数据。

后面太长了就不继续记了,直接从第六章数据分析算法开始。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值