Pandas库的学习

Pandas库的介绍

Pandas库是python第三方库,提供高性能易用数据类型和分析工具;基于Numpy实现,常与Numpy和Matplotlib一同使用;两个数据类型:Series,DataFrame。

网站小助手:https://www.pypandas.cn/

使用方法:import pandas as pd

Numpy VS Pandas

Pandas的Series类型

Series类型由一组数据及与相关的数据索引组成。

前面是索引,后面是数据。

举个栗子:

代码展示:

import pandas as pd
a = pd.Series([9,8,7,6])
print(a)

代码演示

Series类型由一组数据及与相关的数据索引组成

Pd.Series([],[])第一个为:数据 第二个为:索引

代码展示:

import pandas as pd
b = pd.Series([9,8,7,6],index=['a','b','c','d'])
print(b)
c = pd.Series([9,8,7,6],['a','b','c','d'])
print(c)
d = pd.Series(['a','b','c','d'],[9,8,7,6])
print(d)

代码演示:

从标量值创建

代码展示:

import pandas as pd
s = pd.Series(25,['a','b','c','d'])
print(s)

代码演示:

从字典类型创建

代码展示:

import pandas as pd
# 方法一
a = pd.Series({'A':9,'B':8,'C':7})
print(a)
# 方法二
# 
b = pd.Series({'A':9,'B':8,'C':7},index=['C','a','A','d'])
print(b)

代码演示:

从ndarray类型创建

代码展示:

import pandas as pd
import numpy as np
n = pd.Series(np.arange(5))
print(n)
# 这个方法比较常用.
# m表示的含义为索引的范围为从9开始,步长为-1,np.arange=5   走5步
m = pd.Series(np.arange(5),index=np.arange(9,4,-1))
print(m)

代码演示:

小结一下

Series类型可以由如下类型创建

Python列表,index与列表元素个数一致。

标量值,index表达Series类型的尺寸

Python字典,键值对中的“键”是索引,index从字典中进行选择操作。

Ndarray,索引和数据都可以通过ndarray类型创建。

其他函数,range()函数等。

Series类型的基本操作

代码展示:

import pandas as pd
# Series类型的基本操作
b = pd.Series([9,8,7,4],['a','b','c','d'])
print(b)
b.index
# .index获取索引
print(b.index)
b.values
# .values获取数据
print(b.values)
# 相当于查字典
# 自动索引
print(b['b'])
# 自定义索引
print(b[0])
# 不可以print(b[['a',2]])的索引方式   不可混用
print(b[['a','b']])

代码演示:

Series类型的操作类似ndarray类型

与Numpy库类似的操作

代码展示:

import pandas as pd
import numpy as np
b = pd.Series([9,8,7,4],['a','b','c','d'])
print(b)
print('----')
# 索取数据
print(b[3])
print('----')
# 表示从开始到3----即0,1,2   3不取 仍是Series类型=索引+值
print(b[:3])
print('----')
# 输出b中大于中位数的类型
print(b[b > b.median()])
print('----')
# 求函数e的n次方值的函数
print(np.exp(b))

代码演示:

Series类型对齐操作

只有相同的引索才会相加

代码演示:

import pandas as pd
a = pd.Series([9,8,7,4],['a','b','c','d'])
b = pd.Series([1,2,3],['c','d','e'])
print(a+b)

代码展示:

代码演示:

import pandas as pd
a = pd.Series([9,8,7,4],['a','b','c','d'])
a.name = 'Series对象'
a.index.name = '索引列'
# a.values.name = '数据值' 没由这样命名的
print(a)

代码展示:

Series类型的修改,Series对象可以随时修改并立即生效

代码展示:

Series类型的小总结------一维数组

DataFrame类型------二维数组 =索引 + 多列数据

DataFrame类型是由共用相同索引的一组列组成,是一个表格型的数据类型,每列值类型可以不同。既有行索引,也有列索引。常用于表达二维数据,但可以表达多维数据

多数据共用同一个索引

axis =0表示横轴 axis =表示纵轴

DataFrame类型可以由如下类型创建

*二维ndarray对象

* 由一维ndarray,列表,字典,元组或Series构成的字典

*Series类型

* 其他的DataFrame类型

//从二维ndarray对象创建

//从一维ndarray对象字典创建

//从列表类型的字典创建

Pandas库的数据类型操作

//改变Series和DataFrame对象的方式

*重新索引

.reindex()能够改变或重排Series和DataFrame的索引

Series和DataFrame的索引是Index类型,Index对象是不可以修改类型

//索引类型的常用方法

* 删除指定对象.drop()能够删除Series和DataFrame指定行或列索引

Pandas库数据类型的运算

算数运算根据行列索引,补齐后运算,运算默认产生浮点数

补齐时缺项填充NaN()空值

二维和一维,一维和零维间为广播运算

//数据的排序

摘要

*基本统计(含排序)

*分布/累计统计

*数据特征,相关性,周期性等

*数据挖掘(形成知识)

Pandas库的数据排序

.sort_index()方法在指定轴上根据索引进行排序,默认升序

//数据的基本分析

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是先森丫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值