Pandas数据结构

Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型

DataFrame 是 Pandas 中的另一个核心数据结构,用于表示二维表格型数据。

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。

目录

Series 特点:

实例1: 

 实例2:

基本操作: 

使用布尔表达式:根据条件过滤 Series:

转换数据类型:使用 astype 方法将 Series 转换为另一种数据类型:

注意事项:


Series 特点:

  • 一维数组:Series是一维的,这意味着它只有一个轴(或维度),类似于 Python 中的列表。

  • 索引: 每个 Series 都有一个索引,它可以是整数、字符串、日期等类型。如果不指定索引,Pandas 将默认创建一个从 0 开始的整数索引。

  • 数据类型: Series 可以容纳不同数据类型的元素,包括整数、浮点数、字符串、Python 对象等。

  • 大小不变性:Series 的大小在创建后是不变的,但可以通过某些操作(如 append 或 delete)来改变。

  • 操作:Series 支持各种操作,如数学运算、统计分析、字符串处理等。

  • 缺失数据:Series 可以包含缺失数据,Pandas 使用NaN(Not a Number)来表示缺失或无值。

实例1: 
import pandas as pd


 mydataset={
     'sites':['Google','Runoob','wiki'],
     'number':[1,2,3]
 }
myvar=pd.DataFrmae(mydataset)



print(myvar)

 运行结果:

 实例2:
import pandas as pd


a=[1,2,3]
myvar=pd.Series(a,index=[1,2,3],name="RUNOOB-Series-TEST")

print(myvar)

运行结果:

下面出现了name:参数,和数据类型

基本操作: 

import pandas as pd



s=pd.Series([1,2,3,4],index=['a','b','c','d'])

print(s['a'])#返回‘a’对应的元素
s['a']=10
print(s['a'])#把‘a’里面的元素改为10
del s['a']#删除‘a’的元素
使用布尔表达式:根据条件过滤 Series:
import pandas as pd


s=pd.Series([1,2,3,4],index=['a','b','c','d'])
print(s>2)

 

返回了布尔类型

转换数据类型:使用 astype 方法将 Series 转换为另一种数据类型:
import pandas as pd



s=pd.Series([1,2,3,4],index=['a','b','c','d'])

s=s.astype('float64')
print(s)

 

注意事项:

  • Series 中的数据是有序的。
  • 可以将 Series 视为带有索引的一维数组。
  • 索引可以是唯一的,但不是必须的。
  • 数据可以是标量、列表、NumPy 数组等。

 DataFrame 特点:

  • 二维结构: DataFrame 是一个二维表格,可以被看作是一个 Excel 电子表格或 SQL 表,具有行和列。可以将其视为多个 Series 对象组成的字典。

  • 列的数据类型: 不同的列可以包含不同的数据类型,例如整数、浮点数、字符串或 Python 对象等。

  • 索引DataFrame 可以拥有行索引和列索引,类似于 Excel 中的行号和列标。

  • 大小可变:可以添加和删除列,类似于 Python 中的字典。

  • 自动对齐:在进行算术运算或数据对齐操作时,DataFrame 会自动对齐索引。

  • 处理缺失数据DataFrame 可以包含缺失数据,Pandas 使用 NaN(Not a Number)来表示。

  • 数据操作:支持数据切片、索引、子集分割等操作。

  • 时间序列支持DataFrame 对时间序列数据有特别的支持,可以轻松地进行时间数据的切片、索引和操作。

  • 丰富的数据访问功能:通过 .loc.iloc 和 .query() 方法,可以灵活地访问和筛选数据。

        .............. 

实例1: 
import pandas as pd


data=[['Google',10],['Runoob',12],['Wiki',13]]
df=pd.DataFrame(data,columns=['Site','Age'])

df['Site']=df['Site'].astype(str)
df['Age']=df['Age'].astype(float)

print(df)

运行结果:

实例2:
import pandas as pd
import numpy as np

ndarray_data=np.array([
    ['Google',10],
    ['Runoob',12],
    ['Wiki',13]
])
df=pd.DataFrame(ndarray_data,columns=['Site','Age'])

print(df)

 运行结果:

实例3: 
import pandas as pd

data=[{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df=pd.DataFrame(data)

print(df)

 

无值的地方变为NaN

实例4:
import pandas as pd
import numpy as np
import pandas

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df=pd.DataFrame(data)
print(df.loc[0])
print(df.loc[1])

 

基本操作:

创建 DataFrame:
从字典创建:字典的键成为列名,值成为列数据。
import pandas as pd

# 通过字典创建 DataFrame
df = pd.DataFrame({'Column1': [1, 2, 3], 'Column2': [4, 5, 6]})
从列表的列表创建:外层列表代表行,内层列表代表列。
# 通过列表的列表创建 DataFrame

df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  columns=['Column1', 'Column2', 'Column3'])
从 NumPy 数组创建:提供一个二维 NumPy 数组。
import numpy as np

# 通过 NumPy 数组创建 DataFrame
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))

从 Series 创建 DataFrame:通过 pd.Series() 创建。

# 从 Series 创建 DataFrame
s1 = pd.Series(['Alice', 'Bob', 'Charlie'])
s2 = pd.Series([25, 30, 35])
s3 = pd.Series(['New York', 'Los Angeles', 'Chicago'])
df = pd.DataFrame({'Name': s1, 'Age': s2, 'City': s3})

注意事项

  • DataFrame 是一种灵活的数据结构,可以容纳不同数据类型的列。
  • 列名和行索引可以是字符串、整数等。
  • DataFrame 可以通过多种方式进行数据选择、过滤、修改和分析。
  • 通过对 DataFrame 的操作,可以进行数据清洗、转换、分析和可视化等工作。
  • 34
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

eqwaak0

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值