Pandas库的介绍
Pandas库是python第三方库,提供高性能易用数据类型和分析工具;基于Numpy实现,常与Numpy和Matplotlib一同使用;两个数据类型:Series,DataFrame。
网站小助手:https://www.pypandas.cn/
使用方法:import pandas as pd
Numpy VS Pandas
Pandas的Series类型
Series类型由一组数据及与相关的数据索引组成。
前面是索引,后面是数据。
举个栗子:
代码展示:
import pandas as pd
a = pd.Series([9,8,7,6])
print(a)
代码演示
Series类型由一组数据及与相关的数据索引组成
Pd.Series([],[])第一个为:数据 第二个为:索引
代码展示:
import pandas as pd
b = pd.Series([9,8,7,6],index=['a','b','c','d'])
print(b)
c = pd.Series([9,8,7,6],['a','b','c','d'])
print(c)
d = pd.Series(['a','b','c','d'],[9,8,7,6])
print(d)
代码演示:
从标量值创建
代码展示:
import pandas as pd
s = pd.Series(25,['a','b','c','d'])
print(s)
代码演示:
从字典类型创建
代码展示:
import pandas as pd
# 方法一
a = pd.Series({'A':9,'B':8,'C':7})
print(a)
# 方法二
#
b = pd.Series({'A':9,'B':8,'C':7},index=['C','a','A','d'])
print(b)
代码演示:
从ndarray类型创建
代码展示:
import pandas as pd
import numpy as np
n = pd.Series(np.arange(5))
print(n)
# 这个方法比较常用.
# m表示的含义为索引的范围为从9开始,步长为-1,np.arange=5 走5步
m = pd.Series(np.arange(5),index=np.arange(9,4,-1))
print(m)
代码演示:
小结一下
Series类型可以由如下类型创建
Python列表,index与列表元素个数一致。
标量值,index表达Series类型的尺寸
Python字典,键值对中的“键”是索引,index从字典中进行选择操作。
Ndarray,索引和数据都可以通过ndarray类型创建。
其他函数,range()函数等。
Series类型的基本操作
代码展示:
import pandas as pd
# Series类型的基本操作
b = pd.Series([9,8,7,4],['a','b','c','d'])
print(b)
b.index
# .index获取索引
print(b.index)
b.values
# .values获取数据
print(b.values)
# 相当于查字典
# 自动索引
print(b['b'])
# 自定义索引
print(b[0])
# 不可以print(b[['a',2]])的索引方式 不可混用
print(b[['a','b']])
代码演示:
Series类型的操作类似ndarray类型
与Numpy库类似的操作
代码展示:
import pandas as pd
import numpy as np
b = pd.Series([9,8,7,4],['a','b','c','d'])
print(b)
print('----')
# 索取数据
print(b[3])
print('----')
# 表示从开始到3----即0,1,2 3不取 仍是Series类型=索引+值
print(b[:3])
print('----')
# 输出b中大于中位数的类型
print(b[b > b.median()])
print('----')
# 求函数e的n次方值的函数
print(np.exp(b))
代码演示:
Series类型对齐操作
只有相同的引索才会相加
代码演示:
import pandas as pd
a = pd.Series([9,8,7,4],['a','b','c','d'])
b = pd.Series([1,2,3],['c','d','e'])
print(a+b)
代码展示:
代码演示:
import pandas as pd
a = pd.Series([9,8,7,4],['a','b','c','d'])
a.name = 'Series对象'
a.index.name = '索引列'
# a.values.name = '数据值' 没由这样命名的
print(a)
代码展示:
Series类型的修改,Series对象可以随时修改并立即生效
代码展示:
Series类型的小总结------一维数组
DataFrame类型------二维数组 =索引 + 多列数据
DataFrame类型是由共用相同索引的一组列组成,是一个表格型的数据类型,每列值类型可以不同。既有行索引,也有列索引。常用于表达二维数据,但可以表达多维数据
多数据共用同一个索引
axis =0表示横轴 axis =表示纵轴
DataFrame类型可以由如下类型创建
*二维ndarray对象
* 由一维ndarray,列表,字典,元组或Series构成的字典
*Series类型
* 其他的DataFrame类型
//从二维ndarray对象创建
//从一维ndarray对象字典创建
//从列表类型的字典创建
Pandas库的数据类型操作
//改变Series和DataFrame对象的方式
*重新索引
.reindex()能够改变或重排Series和DataFrame的索引
Series和DataFrame的索引是Index类型,Index对象是不可以修改类型
//索引类型的常用方法
* 删除指定对象.drop()能够删除Series和DataFrame指定行或列索引
Pandas库数据类型的运算
算数运算根据行列索引,补齐后运算,运算默认产生浮点数
补齐时缺项填充NaN()空值
二维和一维,一维和零维间为广播运算
//数据的排序
摘要
*基本统计(含排序)
*分布/累计统计
*数据特征,相关性,周期性等
*数据挖掘(形成知识)
Pandas库的数据排序
.sort_index()方法在指定轴上根据索引进行排序,默认升序
//数据的基本分析
1213

被折叠的 条评论
为什么被折叠?



