Pandas 数据结构 - Series

最新推荐文章于 2024-05-18 15:57:56 发布

量子边缘

最新推荐文章于 2024-05-18 15:57:56 发布

阅读量782

点赞数 7

分类专栏： Pandas 文章标签： pandas 数据结构

本文链接：https://blog.csdn.net/2302_77624868/article/details/136991633

版权

Pandas 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

Series 特点：

一维数组：Series是由一维数组构成的数据结构，类似于一维数组或列表。
标签索引：每个Series对象都包含一个带标签的索引，可以通过这些标签来访问和操作数据，类似于字典的键值对。
数据对齐：在进行运算或操作时，Series对象会根据标签自动按索引对齐数据。如果有不同的标签，则会产生缺失值(NaN)。
类型灵活：Series可以存储不同类型的数据，例如整数、浮点数、字符串等。
缺失数据处理：Series提供了处理缺失数据的方法，例如填充缺失值、删除包含缺失值的行等。
向量化操作：Series支持向量化操作，可以对整个Series进行元素级运算，无需显式编写循环。
可视化：Series可以直接与matplotlib等库结合使用，方便进行数据可视化。

Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。

以下是关于 Pandas 中的 Series 的详细介绍：创建 Series：可以使用 pd.Series() 构造函数创建一个 Series 对象，传递一个数据数组（可以是列表、NumPy 数组等）和一个可选的索引数组。

pandas.Series( data, index, dtype, name, copy)

参数说明：

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

创建一个简单的 Series 实例：

import pandas as pd

# 创建一个简单的Series实例
s = pd.Series([1, 3, 5, 7, 9])

print(s)

从上图可知，如果没有指定索引，索引值就从 0 开始，我们可以根据索引值读取数据：

import pandas as pd

a = [1, 2, 3]

myvar = pd.Series(a)

print(myvar[1])

我们可以指定索引值，如下实例：

import pandas as pd

a = ["Google", "Runoob", "Wiki"]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

根据索引值读取数据:

import pandas as pd

a = ["Google", "Runoob", "Wiki"]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar["y"])

我们也可以使用 key/value 对象，类似字典来创建 Series：

import pandas as pd

sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2])

print(myvar)

设置 Series 名称参数：

import pandas as pd

sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2], name="RUNOOB-Series-TEST" )

print(myvar)

更多 Series 说明

基本操作：

# 导入pandas库
import pandas as pd

# 创建一个简单的Series实例
series = pd.Series([1, 3, 5, 7, 9])  
series_with_index = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])

# 获取索引为2的值
value = series[2]  
print("Value at index 2:", value)

# 获取索引为1到3的值
subset = series[1:4]  
print("Subset of values from index 1 to 3:", subset)

# 获取索引为'b'的值
value = series_with_index['b']  
print("Value with custom index 'b':", value)

# 索引和值的对应关系
for index, value in series_with_index.items():
    print(f"Index: {index}, Value: {value}")

基本运算：

# 导入pandas和numpy库
import pandas as pd
import numpy as np

# 创建一个简单的Series实例
series = pd.Series([1, 3, 5, 7, 9])  

# 算术运算：将所有元素乘以2
result = series * 2  
print("Result of arithmetic operation (multiply by 2):")
print(result)

# 过滤操作：选择大于2的元素
filtered_series = series[series > 2]  
print("\nFiltered Series with values greater than 2:")
print(filtered_series)

# 数学函数：对每个元素取平方根
result = np.sqrt(series)  
print("\nResult of mathematical function (square root):")
print(result)

属性和方法：

# 导入pandas库
import pandas as pd

# 创建一个带有自定义索引的Series实例
series_with_index = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])

# 获取索引
index = series_with_index.index
print("Index of the Series:")
print(index)

# 获取值数组
values = series_with_index.values
print("\nValues of the Series:")
print(values)

# 获取描述统计信息
stats = series_with_index.describe()
print("\nDescriptive statistics of the Series:")
print(stats)

# 获取最大值和最小值的索引
max_index = series_with_index.idxmax()
min_index = series_with_index.idxmin()
print("\nIndex of the maximum value:", max_index)
print("Index of the minimum value:", min_index)