import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。
NumPy系统是Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵。包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。
Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。
pandas中的数据类型:Series,DataFrame,Panel。
一、创建对象
1,通过传递一个list对象来创建一个Series,pandas会默认创建整型索引:
s=pd.Series([1,3,5,np.nan,6,8])
2,通过传递一个numpy array,时间索引以及标签创建一个DataFrame:
dates=pd.date_range("20120101",periods=6)
df=pd.DataFrame(np.random.randn(6,4), index=dates, columns=list("ABCD"))
3,通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame:
df2=pd.DataFrame({'A':1.,
'B':pd.Timestamp('20130102'),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,dtype='int32'),
'E':pd.Categorical(["test","train","test","train"]),
'F':'foo'
})
# 查看数据类型
df2.dtypes
二、查看数据
1,查看头部和尾部的行: