Pandas
包概述 :
Pandas是一个Python 的包,提供快速、灵活和富有表现力的数据结构,旨在使"关系或标记数据的使用既简单又直观"。
它的目标是成为用Python进行实际的、真实的数据分析的基础高级模块。
此外,它还有更宏远的目标,即成为超过任何语言的最强大,最灵活的开源数据分析/操作工具。它已朝着这个目标迈进。
Series的基本概念和创建
Pandas的数据结构,分两种:
Series和
DataFrame. Series的中文意思是序列,系列.
我们来学习Series,它的基本概念和创建方式. Series可以认为是一个一维数组
Series的 导入方式 :
1 importnumpy as np2 import pandas as pd
Series对象的创建方式,如下:
tes = pd.Series(np.random.rand(5))print(tes)print(tes.values , type(tes.values))
根据输出结果可以看到 : Series是一个带有标签的一维数组,可以保存任何的数据类型.包括整数,字符串,浮点数,Python对象. 轴标签就是索引, Index
使用 .index 可以查看索引 ,例如 tes.index 可以看到起止索引及索引长度. 使用.values 属性可以查看该数组的值. 是Ndarray(数组)
Series相比较Ndarray, Series多了一个自带索引功能.就是一个一维数组加上对应的索引.Series更像是一个带有顺序的字典.
以上是Series的基本概念,下面来了解下Series的几种创建方式:
第一种 :
由字典创建, 字典的Key值就是index索引, values就是values 数组的值.如下:
dic ={'a':1,'b':2,'c':'a'}
tes=pd.Series(dic)
tes.values
当元素里的类型不一致时,tes的类型就是一个Object对象.
第二种,由
数组创建 (一维数组)
arr =np.random.randn(5)
tes=pd.Series(arr)print(tes)
既然Index是默认使用整数,那么也可以对它进行修改,修改方法是这样的:
tes = pd.Series(arr,index=list('abcde'),dtype=np.float64)print(tes)