Pandas(一) —— 数据结构Series
Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
——来自百度百科
1. series数据结构
1.1 series的基本属性
import numpy as np
import pandas as pd
# Series 数据结构
# Series 相当于带有标签的一维数组,可以保存任何数据类型(整数,字符串,浮点数,Python对象等),轴标签统称为索引
s = pd.Series(np.random.rand(5))
print(s)
print('----------')
print(s.index) # .index查看series索引,类型为rangeindex
print(list(s.index))
print(s.values) # .values查看series值,类型是ndarray
# 核心:series相比于ndarray,是一个自带索引index的数组 → 一维数组 + 对应索引
# 所以当只看series的值的时候,就是一个ndarray
# series和ndarray较相似,索引切片功能差别不大
# series和dict相比,series更像一个有顺序的字典(dict本身不存在顺序),其索引原理与字典相似(一个用key,一个用index)
0 0.396242
1 0.129111
2 0.972807
3 0.880938
4 0.185592
dtype: float64
----------
RangeIndex(start=0, stop=5, step=1)
[0, 1, 2, 3, 4]
[ 0.39624189 0.12911103 0.97280693 0.88093782 0.18559196]
# Series 名称属性:name
s1 = pd.Series(np.random.randn(5))
print(s1)
print('------------')
s2 = pd.Series(np.random.randn(5),name = 'practice')
print(s2)
print(s1.name, s2.name,type(s2.name))
# name为Series的一个参数,创建一个数组的 名称
# .name方法:输出数组的名称,输出格式为str,如果没用定义输出名称,输出为None
print('------------')
s3 = s2.rename('ggg')
print(s3)
print(s3.name, s2.name)
# .rename()重命名一个数组的名称,并且新指向一个数组,原数组不变
0 2.812936
1 1.073512
2 0.770453
3 0.382940
4 -0.620083
dtype: float64
------------
0 0.580068
1 -0.318154
2 0.506983
3 0.418464
4 -1.849126
Name: practice, dtype: float64
None practice <class 'str'>
------------
0 0.580068
1 -0.318154
2 0.506983
3 0.418464
4 -1.849126
Name: ggg, dtype: float64
ggg practice