pandas是专门分析数据的一个开源python库。pandas是做统计分析和决策的一个基础工具,下从安装及基本使用进行说明:
pandas安装
- 先安装Anaconda然后输入:
conda install pandas
我们可以在cmd终端输入如下命令进行查看及更新:
conda list pandas
conda upgrade pandas
- 使用pip安装
pip install pandas
- linux 安装方法
sudo apt-get install python-pandas
使用jupyter可视化操作pandas
jupyter是一个可以将数据分析过程可视化的数据分析根据,我们在IDE输入:
pip in stall jupyter
安装后在后台输入jupyter进行测试是否安装成功
因为jupyter对Windows的支持问题,直接无法在IDE运行,我们可以输入:
jupyter notebook
在浏览器中操作数据分析
pandas两大重要结构
Series
Series常用来表示一位数组,每个元素都有一个与之相匹配的标签存在于index中
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
s
输入结果如下:
DateFrame
Dateframe是按一定顺序排列的多维数组,也可以认作一个由date组成的列,series为值的字典
date = {'color':['blue','green','yellow','red','white'],'object':['ball','pen','pencil','paper','mug'],'price':[1,2,3,4,5]}
frame = pd.DataFrame(date)
date
运行结果如下: