Pandas : (Python Data Analysis Library 即 Python数据分析库),是基于Numpy的一种工具,该工具是为了解决数据分 析任务而创建的
pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具
pands提供了大量能使我们快速便捷的处理数据的函数和方法
它使Python成为强大而高效的数据分析环境的重要因素之一
pandas 大致分为三种数据结构: 一维的Series、二维的DataFrame、以及三维的Panel
用的最多就是Series和DataFrame,而且可以配合其他模块进行画图
Pandas的导入
import pandas as pd
Series 是一种类似与一维数组的对象,由下面连个部分组成:
· values : 一组数据 (ndarray类型)
· index : 相关数据索引标签
Series里面存放的数据必须是一维的
1. Series的创建
'''创建的时候没有指定index,默认从索引从0开始'''
s1 = pd.Series([1,2,3,4,5])
'''创建的时候指定index索引'''
s2 = pd.Series(['a','b','c','d'],index=['小胡','小伟','小刘','小明'])
'''由字典创建,键就是index索引'''
s3 = pd.Series({'a':1,'b':2,'c':3,'d':4})
2.改变或指定Series的索引
'''注意索引个数要与Series的长度对应'''
s1.index = ['one','two','threee','four','five']
3.Series的索引和切片
索引分为 显示索引和隐式索引
(1) 显示索引:
-- 使用index中的元素作为索引值
-- 使用.loc[]
此时是闭区间
(2) 隐式索引:
-- 使用整数作为索引者
-- 使用.iloc[]
此时是半开区间
索引
import numpy as np
s4 = pd.Series(np.random.random(5),index=list('abcde'))
'''按照索引取'''
print(s4['a']) # 取出索引为a的元素
'''按照位置取'''
print(s4[0]) # 取出第一个元素
'''用显示索引loc[], 里面是具体索引值,不能为位置的值'''
print(s4.loc['a']) # 索引为a的位置
'''用隐式索引iloc[], 里面为位置的值'''
print(s4.iloc[0]) # 索引为a的位置
切片