转自pandas中文网
以下是 pandas 做够胜任的一些事情:
-
在浮点和非浮点数据中轻松处理缺失数据(表示为NaN)。
-
大小可变性:可以从DataFrame和更高维度的对象中插入和删除。
-
自动和显式数据对齐:对象可以明确地与一组标签对齐,或者用户可以简单地忽略标签,让Series,DataFrame等在计算中自动对齐数据
-
强大,灵活的**组(group by)**功能,可对数据集执行拆分应用组合操作,用于聚合和转换数据。
-
轻松将其他Python和NumPy数据结构中的不规则,不同索引数据转换为DataFrame对象。
-
基于智能标签的切片,花式索引和子集大数据集。
-
直观合并和加入数据集。
-
灵活的重塑和数据集的旋转。
-
轴的分层标记(每个刻度可能有多个标签)。
-
强大的IO工具,用于从平面文件(CSV和分隔)、Excel文件、数据库以及能从超快的HDF5格式中保存或加载数据。
-
特定时间序列功能:日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期转换和滞后等。
对于数据科学家来说,处理数据通常分为多个阶段:整理和清理数据,分析/建模数据,然后将分析结果组织成适合绘图或表格显示的形式。Pandas 是完成所有这些任务的理想工具。
** 数据结构**
pandas数据结构的最佳方式是作为低维数据的灵活容器。
数据的可变性和拷贝
所有的pandas数据结构都是值可变的(它们包含的值可以改变),但并不总是大小可变的。
Series的长度不能更改,但例如,列可以插入到DataFrame中。然而,绝大多数方法产生新的对象并保持输入数据不变。 一般来说,我们喜欢在合情合理的情况下支持不变性