基本介绍
Pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。
Pandas是基于Numpy构建的,Numpy是列表形式的,没有数值标签,而Pandas是字典形式。下面看下具体的数据类型和使用示例。
数据类型:Series & DataFrame
Series
import pandas as pd
import numpy as np
s = pd.Series([1,2,3,4,5])
a = pd.Series([1.1,0,2,12,90])
print(s)
print(a)
输出
0 1
1 2
2 3
3 4
4 5
dtype: int64
0 1.1
1 0.0
2 2.0
3 12.0
4 90.0
dtype: float64
由输出可看出,第一列为索引,如果没有指定index,则索引默认是0-n-1(n是存储的元素的长度)的整数型索引。
DataFrame
dates = pd.date_range('20181101',periods=8)
print(dates)
df = pd.DataFrame(np.random.randn(8,6),index=dates,columns=['a','b','c','d','e','f'])
print(df)
输出
DatetimeIndex(['2018-11-01', '2018-11-02', '2018-11-03', '2018-11-04',
'2018-11-05', '2018-11-06', '2018-11-07', '2018-11-08'],
dtype='datetime64[ns]', freq='D')
a b c d e f
2018-11-01 1.427048 1.048451 -1.893417 2.074548 -0.011883 -0.637833
2018-11-02 1.867507 1.121334 -0.610859 -1.295376 -0.564970 -1.371580
2018-11-03 0.331277 0.598517 -0.800779 0.916704 1.046835 0.183151
2018-11-04 0.198529 -0.375825 -0.042134 -1.127615 -0.422729 -0.013822
2018-11-05 0.471770 -2.486720 1.336965 -1.234013 -1.526771 0.363065
2018-11-06 0.518086 0.855751 -0.247244 0.039685 -0.584710 0.477313
2018-11-07 0.272689 0.185977 0.047087 -1.522325 -1.228896 -0.093718
2018-11-08 0.517397 -0.709133 2.539326 0.924507 0.121028 0.658164
DataFrame有行索引和列索引,可以认为是由Series组成的大字典。