Pandas的基本运用

ab146efg

于 2022-05-24 13:12:40 发布

阅读量133

点赞数

文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/m0_63290456/article/details/124944980

版权

Pandas的基本运用

介绍

pandas是基于numpy数组构建的,负责数据预处理,清洗,分析等工作,pandas是专门为表格数据和混杂数据设计的

Pandas提供两种数据模型

Series
DataFrame

一个介绍普通的数组,一维

多维数组,通常是二维

`series`

一个一维数组,其中每个元素都有自已的标签(索引)也就是位置;标签可以完美以前的数组的数组0,1,2,3,也可以是字符

某种意义上来说,就是字典

series的组成部分

index:索引
value: 数据数组(nadarray)

from pandas import Series

# 创建一个索引为数字递增的series,其value是1,2,3,4
s1 = Series([1, 2, 3, 4])
print(s1)

# 创建一个索引为指定字符的series
s2 = Series([3, 4, 5, 6],['a', 'b', 'c', 'd'])
print(s2)

# 根据字典创建
data = {
    1: "a", 2: "b", 3: "c"
}
s3 = Series(data)

print(s3)

DataFrame

与series不同的是,df是一个二维数组结构,类似于Excel,这个pandas中最常用的数组结构,毕竟在现实中,绝大多数的数据皆可以使用Excel来存储,另外关系型数据如MYSQL也是类似于Excel

关于索引

因为DF是一个二维数组,所以他的索引是有两个部分组成:行和列

行索引:index

列索引:columns

DataFrame的轴(axis)概念

平时大家理解的坐标系有x轴和y轴,那么DataFrame也有自已轴名称

水平(列)方向表示:

DataFrame运用

代码表示:

from pandas import DataFrame

# 最常见的创建行数是使用一个字典或者numpy数组来创建,只不过字典的value要是一个常规数组
data = {
    "name": ['张三', '李四', '王五'],
    'age': [16, 27, 38],
    'score': [56, 78, 90]
}
df1 = DataFrame(data)
print(df1)

# --2--
# 使用嵌套字典创建,在嵌套字典中需要在设置值得时候字典行索引
pop = {
    '成本': {1001: 17.2, 1002: 34, 1003: 45},
    '价格': {1002: 34, 1004: 54}
}
df2 = DataFrame(data=pop)
print(df2)

# ---指定新的索引---
df3 = DataFrame(data=data,index=['A', 'B', 'C'])