载入需要的包:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
一、Series
Series 是一个一维类数组对象,包含一列数据与与其关联的一列数据标签,数据标签即为数据的序列。创建一个 Series:
s = pd.Series([1,3,5,np.nan,6,8])
s
=>
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
二、DataFrame
DataFrame 是一个表格化的数据结构,它同时拥有行序号与列序号。创建一个 DataFrame有多种方式:
- 通过传递一个 numpy 数组创建 DataFrame
#创建日期索引序列
dates = pd.date_range('20130101', periods=6)
#创建Dataframe,其中 index 决定索引序列,columns 决定列名
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df
- 通过传递一个字典创建 DataFrame:
df2 = pd.DataFrame({ 'A' : 1.,
'B' : pd.Timestamp('20130102'),
'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
'D' : np.array([3] * 4,dtype='int32'),
'E' : pd.Categorical(["test","train","test","train"]),
'F' : 'foo' })
- 查询每一列的数据结构:
df2.dtypes
三、数据观察
观察开头的数据(前五行):
df.head()
观察末尾的数据:
df.tail(3):倒数三排数据
df.index:显示索引
=>
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
'2013-01-05', '2013-01-06'],
dtype='datetime64[ns]', freq='D', tz=None)
df.columns: 显示列索引
df.values:显示底层 numpy 结构