概括:Numpy+Scipy+pandas+matplotlib
pandas——数据分析
基于numPy 的一种工具,为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
一.pandas安装
Python的Anaconda发行版,已经安装好pandas库,不需要另外安装
1.使用Anaconda界面安装
选择对应的pandas进行勾选安装即可
2.使用Anaconda命令安装
conda install pandas
3. 使用PyPi安装命令安装
pip install pandas
二. pandas引入约定
from pandas import Series, DataFrame
import pandas as pd
三. pandas基本数据结构
pandas中主要有两种数据结构,分别是:
1.Series
一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象
注意:Series中的索引值是可以重复的
1.通过一维数组创建
jupyter notebook运行代码:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd
arr=np.array([1,3,5,np.NaN,10])
series01=Series(arr)
series01
series01.dtype
series01.index
series01.values
结果:
0 1.0 #通过数组创建Series的时候,如果没有指定索引值,则自动创建0-N的整数索引
1 3.0 #当Series对象创建好后可以通过index修改索引值
2 5.0
3 NaN
4 10.0
dtype: float64
dtype('float64')
RangeIndex(start=0, stop=5, step=1)
array([ 1., 3., 5., nan, 10.])
代码:
series02=Series([10,20,30])
series02
series03.index=[u'语文',u'数学',u'英语']
series03
series04=Series(data=[10,20,30],dtype=np.float64,index=[u'语文',u'数学',u'英语'])
series04
结果:
0 10
1 20
2 30
dtype: int64
语文 10.0
数学 20.0
英语 30.0
dtype: float64
语文 10.0
数学 20.0
英语 30.0
dtype: float64
2.通过字典的方式创建
代码:
import numpy