基础介绍
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下:
from pandas import Series,DataFrame
import pandas as pd
1. 创建对象
1.1、 可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引:
1.2 、 通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame::
1.3、 查看不同列的数据类型:
2、查看数据
2.1、 查看frame中头部和尾部的行:
2.2、 显示索引、列和底层的numpy数据:
2.3、 describe()函数对于数据的快速统计汇总:
2.4、 对数据的转置:
3、选择
虽然标准的Python/Numpy的选择和设置表达式都能够直接派上用场,但是作为工程使用的代码,我们推荐使用经过优化的pandas数据访问方式: .at, .iat, .loc, .iloc 和 .ix详情请参阅 http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing , http://pandas.pydata.org/pandas-docs/stable/advanced.html#advanced。
3.1、 通过传递数值进行位置选择(选择的是行)
df.iloc[3]
3.2、 2、 通过数值进行切片,与numpy/python中的情况类似
df.iloc[3:5,0:2]
待续!!~~~~~~~~~~~~