【python数据建模】Pandas库

Rai Sokann

已于 2023-10-01 00:17:26 修改

阅读量189

点赞数

分类专栏： python数据建模文章标签： pandas 笔记

于 2023-09-30 23:58:20 首次发布

本文链接：https://blog.csdn.net/Yorusimo/article/details/133442588

版权

python数据建模专栏收录该内容

7 篇文章 1 订阅

订阅专栏

概述

Pandas库主要提供了三种数据结构：
（1）Series：带标签的一维数据
（2）DataFrame：带标签且大小可变的二维表结构
（3）Panel：带标签且大小可变的三维数据
Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。

Series

创建对象

import pandas as pd
import numpy as np

# 以字典形式给出标签和一维数据
d = {'a': 1, 'b': 2, 'c': 3}
ser=pd.Series(d)

# data:传输数据 index:传输标签
a=np.arange(0,3)
d=['x','y','z']
ser=pd.Series(data=a,index=d)

DataFrame

创建对象

import pandas as pd
import numpy as np

# index是行标签 columns是列标签 默认都是从0开始的正数索引
d=np.arange(1,10).reshape(3,3)
a=['A','B','C']
e=['一','二','三']
df1=pd.DataFrame(data=d,index=a)
df2=pd.DataFrame(data=d,index=a)
df=pd.DataFrame(data=d,index=e,columns=a)
"""
df
   A  B  C
一  1  2  3
二  4  5  6
三  7  8  9
"""

查看数据

1、查看头部与尾部数据

# head(n):从头部开始，选取n行数据
print(df.head(1))

# tail(n):从尾部开始，选取n行数据
print(df.tail(2))

2、显示索引与列名

# 索引 行标签
df.index
"""
Index(['一', '二', '三'], dtype='object')
"""
# 列名 列标签
df.columns
"""
Index(['A', 'B', 'C'], dtype='object')
"""

3、to_numpy()：输出不包含行索引和列标签的numpy对象

df.to_numpy()

4、describe()：快速查看数据的统计摘要

df.describe()
"""
         A    B    C
count  3.0  3.0  3.0
mean   4.0  5.0  6.0
std    3.0  3.0  3.0
min    1.0  2.0  3.0
25%    2.5  3.5  4.5
50%    4.0  5.0  6.0
75%    5.5  6.5  7.5
max    7.0  8.0  9.0
"""

索引

1 按列标签索引

print(df['A'])
"""
一    1
二    4
三    7
Name: A, dtype: int32
"""

2 按行切片索引

print(df[0:1])
"""
   A  B  C
一  1  2  3
"""
print(df['二':'三'])
"""
   A  B  C
二  4  5  6
三  7  8  9
"""

3 loc方法

用DataFrame对象的loc方法，同时按列标签和行切片索引

print(df.loc['二':'三','A'])
"""
二    4
三    7
Name: A, dtype: int32
"""

4 iloc方法

用DataFrame对象的iloc方法，用整数or整数数组按位置索引

print(df.iloc[1,[1,2]])
"""
B    5
C    6
Name: 二, dtype: int32
"""
print(df.iloc[:,[0,2]])
"""
   A  C
一  1  3
二  4  6
三  7  9
"""

5 布尔索引

print(df[df.A>5])
"""
   A  B  C
三  7  8  9
"""
print(df[df>5])
"""
     A    B    C
一  NaN  NaN  NaN
二  NaN  NaN  6.0
三  7.0  8.0  9.0
"""
# isin方法
print(df[df.isin([4,9])])

数据输入输出

CSV

# 将df写入csv格式文件
df.to_csv('文件名.csv')
#读取
pd.read_csv('文件名.csv')

excel

同cvs，有to_csv和read_csv

类似SQL的聚合函数

连接：concat

concat()函数用于连接Pandas对象。
列标签相同的话，起到一个上下行拼接的效果。列标签不同的话，会变成列拼接，NAN缺失值会补全数据表。

import pandas as pd
import numpy as np

d=np.arange(1,10).reshape(3,3)
a=['A','B','C']
e=['一','二','三']
df=pd.DataFrame(data=d,index=e,columns=a)
df1=pd.DataFrame(data=np.random.rand(3,3),index=e,columns=a)
print(pd.concat([df,df1]))
"""
          A         B         C
一  1.000000  2.000000  3.000000
二  4.000000  5.000000  6.000000
三  7.000000  8.000000  9.000000
一  0.970790  0.092893  0.438776
二  0.580138  0.996153  0.698677
三  0.554084  0.640035  0.574166
"""
d=np.arange(1,10).reshape(3,3)
a=['A','B','C']
e=['一','二','三']
df=pd.DataFrame(data=d,index=e,columns=a)
df1=pd.DataFrame(data=np.random.rand(3,4),index=e)
print(pd.concat([df,df1]))
"""
     A    B    C         0         1         2         3
一  1.0  2.0  3.0       NaN       NaN       NaN       NaN
二  4.0  5.0  6.0       NaN       NaN       NaN       NaN
三  7.0  8.0  9.0       NaN       NaN       NaN       NaN
一  NaN  NaN  NaN  0.286544  0.470042  0.229887  0.323514
二  NaN  NaN  NaN  0.475214  0.994036  0.724422  0.788663
三  NaN  NaN  NaN  0.231405  0.785781  0.537038  0.576568
"""

连接：merge

跟SQL语句中的join函数一个效果

import pandas as pd
import numpy as np


left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
df=pd.merge(left,right)
print(df)
"""
   key  lval  rval
0  foo     1     4
1  foo     1     5
2  foo     2     4
3  foo     2     5
"""

分组：groupby

Rai Sokann

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【python数据建模】Pandas库

Pandas库主要提供了三种数据结构：（1）Series：带标签的一维数据（2）DataFrame：带标签且大小可变的二维表结构（3）Panel：带标签且大小可变的三维数据Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。
复制链接

扫一扫

专栏目录