之前一直使用xlrd和xlwt来处理excel,最近突然发现pandas的功能非常强大,不仅可以读写excel,对数据处理和分析也非常高效.
pandas中的数据格式主要有两种,Series和DataFrame,我们这里介绍一下DataFrame.
数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。
数据帧(DataFrame)的功能特点:
- 潜在的列是不同的类型
- 大小可变
- 标记轴(行和列)
- 可以对行和列执行算术运算
1. 新建一个二维数组:
import pandas as pd
df1 = pd.DataFrame([[1,2,3],[4,5,6]],index=['A','B'],columns=['C1','C2','C3'])
df1
2. 获取数据,返回值是一个array
df1.values
array([[1, 2, 3],
[4, 5, 6]], dtype=int64)
3. 获取dataframe的 序号和列名
df1.index
Index(['A', 'B'], dtype='object')
df1.columns
Index(['C1', 'C2', 'C3'], dtype='object')