《Python 数据分析》笔记——pandas

最新推荐文章于 2024-10-05 08:57:27 发布

weixin_30415113

最新推荐文章于 2024-10-05 08:57:27 发布

阅读量108

点赞数 1

文章标签： python 数据结构与算法数据库

原文链接：http://www.cnblogs.com/yifdu25/p/8411673.html

版权

Pandas

pandas是一个流行的开源Python项目，其名称取panel data(面板数据)与Python data analysis(Python 数据分析)之意。

pandas有两个重要的数据结构：DataFrame和Series

pandas数据结构之DataFrame

pandas的DataFrame数据结构是一种带标签的二维对象，与Excel的电子表格或者关系型数据表非常相似。

可以用下列方式来创建DataFrame：

1.从另一个DataFrame创建DataFrame

2.从具有二维形状的Numpy数组或者数组的复合结构来生成DataFrame

3.类似地，可以用pandas的另一种数据结构Series来创建DataFrame.关于Series，后文介绍

4.DataFrame也可以从类似CSV之类的文件来生成

考察pandas的DataFrame及其各种属性

（1）首先，将数据文件载入DataFrame,并显示其内容：

(2)DataFrame有一个属性，以元组的形式来存放DataFrame的形状数据，这与ndarray非常相似，我们可以查询一个DataFrame的行数

(3)下面通过其他属性来考察各列的标题与数据类型

(4)pandas的DataFrame带有一个索引，类似于关系型数据库中数据表的主键（primary key）。对于这个索引，我们既可以手动规定，也可以让pandas自动创建。访问索引时，使用相应的属性即可

（5）有时我们希望遍历DataFrame的基础数据，如果使用pandas的迭代器，遍历列值的效率可能会很低。更好的解决方案是从基础的Numpy数组中提取这些数值，然后进行相应的处理。不过，pandas的DataFrame的某一个属性可以在这方面为我们提供帮助

Pandas数据结构之Series

pandas的Series数据结构是由不同类型的元素组成的一维数组，该数据结构也具有标签。可以通过下列方式来创建pandas的Series数据结构。

1.由Python的字典来创建Series

2.由Numpy数组来创建Series

3.由单个标量来创建

创建Series数据结构时，可以向构造函数递交一组轴标签，这些标签通常称为索引，是一个可选参数。默认情况下，如果使用Numpy数组作为输入数据，那么pandas会将索引值从0开始递增。如果传递给构造函数的数据是一个Python字典，那么这个字典的键会经排序后变成相应的索引；如果输入数据是一个标量值，那么就需要由我们来提供相应的索引。索引中的每一个新值都要输入一个标量值。pandas的Series和DataFrame数据类型接口的特征和行为是从Numpy数组和Python字典那里借用来的

（1）首先，选中输入文件中的第一列，即Country列；然后显示这个对象在局部作用域中的类型

(2)pandas的Series数据结构不仅共享了DataFrame的一些属性，还另外提供了与名称有关的一个属性。

(3)为了演示Series的切片功能，这里以截取Series变量Country中的最后两个国家为例进行说明

(4)Numpy的函数同样适用于pandas的DataFrame和Series数据结构

可以在DataFrame、Series和Numpy数组之间进行各种类型的数值运算。