导航
目录
- 新功能
- 安装
- 为pandas贡献
- 常见问题(FAQ)
- 套装概述
- 10分钟入门pandas
- 教程
- 食谱
- 数据结构简介
- 基本基本功能
- 使用文本数据
- 选项和设置
- 索引和选择数据
- MultiIndex /高级索引
- 计算工具
- 使用缺失数据
- 分组:split-apply-combine
- 合并,连接和连接
- 整形和数据透视表
- 时间系列/日期功能
- 时间Deltas
- 分类数据
- 可视化
- 样式
- IO工具(文本,CSV,HDF5,...)
- 远程数据访问
- 增强性能
- 稀疏数据结构
- 告诫和诀窍
- rpy2 / R interface
- pandas生态系统
- 与R / R库比较
- 与SQL比较
- 与SAS的比较
- API参考
- 内部
- 发行说明
搜索
输入搜索字词或模块,类或函数名称。
pandas:强大的Python数据分析工具包¶
日期:2016年12月24日版本:0.19.2
二进制安装: http://pypi.python.org/pypi/pandas
源代码仓库: http://github.com/pydata/pandas
问题&想法: https://github.com/pydata/pandas/issues
Q&A支持: http://stackoverflow.com/questions/tagged/pandas
开发人员邮件列表: http://groups.google.com/group/pydata
pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。
pandas非常适合许多不同类型的数据:
- 具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中
- 有序和无序(不一定是固定频率)时间序列数据。
- 带有行和列标签的任意矩阵数据(均匀类型或异质)
- 任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中
pandas的两个主要数据结构Series
(一维)和DataFrame
(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame
提供R的data.frame
所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。
这里只是几个pandas做得很好的事情:
- 轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据
- 大小可变性:列可以从DataFrame和更高维度的对象中插入和删除
- 自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame 等在计算中为您自动对齐数据
- 功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据
- 使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
- 基于智能标签的切片,花式索引和子集化大数据集
- 直观的合并和连接数据集
- 灵活的重塑和数据集的旋转
- 轴的分层标签(每个标记可能有多个标签)
- 用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具
- 时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。
许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。
其他一些注释
- pandas是快速的。许多低级算法位已在Cython代码中广泛调整。然而,与任何其他泛化通常牺牲性能。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。
- pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。
- pandas已广泛用于金融应用的产品。
注意
本文档假定大家熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间在学习NumPy。
有关库中的内容的更多详细信息,请参阅软件包概述。
- 新功能
- v0.19.2(2016年12月24日)
- v0.19.1(2016年11月3日)
- v0.19.0(2016年10月2日)
- v0.18.1(2016年5月3日)
- v0.18.0(2016年3月13日)
- v0.17.1(2015年11月21日)
- v0.17.0(2015年10月9日)
- v0.16.2(2015年6月12日)
- v0.16.1(2015年5月11日)
- v0.16.0(2015年3月22日)
- v0.15.2(2014年12月12日)
- v0.15.1(2014年11月9日)
- v0.15.0(2014年10月18日)
- v0.14.1(2014年7月11日)
- v0.14.0(2014年5月31日)
- v0.13.1(2014年2月3日)
- v0.13.0(2014年1月3日)
- v0.12.0(2013年7月24日)
- v0.11.0(2013年4月22日)
- v0.10.1(2013年1月22日)
- v0.10.0(2012年12月17日)
- v0.9.1(2012年11月14日)
- v0.9.0(2012年10月7日)
- v0.8.1(2012年7月22日)
- v0.8.0(2012年6月29日)
- v.0.7.3(2012年4月12日)
- v.0.7.2(2012年3月16日)
- v.0.7.1(2012年2月29日)
- v.0.7.0(2012年2月9日)
- v.0.6.1(2011年12月13日)
- v.0.6.0(2011年11月25日)
- v.0.5.0(2011年10月24日)
- v.0.4.3至v0.4.1(2011年9月25日 - 10月9日)
- 安装
- 贡献给pandas
- 常见问题(FAQ)
- 套装概述
- 10分钟到熊猫
- 教程
- 食谱
- 数据结构简介
- 基本基本功能
- 使用文本数据
- 选项和设置
- 索引和选择数据
- MultiIndex /高级索引
- 计算工具
- 使用缺失数据
- 分组:split-apply-combine
- 合并,连接和连接
- 整形和数据透视表
- 时间系列/日期功能
- 时间Deltas
- 分类数据
- 可视化
- 样式
- IO工具(文本,CSV,HDF5,...)
- CSV&文本文件
- JSON
- HTML
- Excel文件
- 剪贴簿
- 腌制
- msgpack(experimental)
- HDF5(PyTables)
- SQL查询
- Google BigQuery(实验)
- Stata格式
- SAS格式
- 其他文件格式
- 效果注意事项
- 远程数据访问
- 增强性能
- 稀疏数据结构
- 告诫和诀窍
- rpy2 / R interface
- pandas生态系统
- 与R / R库比较
- 与SQL比较
- 与SAS的比较