一.初识Pandas
Pandas 是数据分析三剑客之一,是 Python 的核心数据分析库
●1.Pandas 能够处理的数据类型
.与 SQL 或 Excel 表类似的数据
.有序或无序的时间序列数据
.带行列标签的矩阵数据
.任意其他形式的观测、统计数据
2. Pandas 的优势
.处理浮点与非浮点数据里的缺失数据,表示为 NaN
.大小可变
.自动、显示数据对齐
.强大、灵活的分组统计功能
.成熟的导入导出工具
二,Series对象
·Pandas库中的一种数据结构,类似于一维数组
·由一组数据以及与这组数据有关的标签(索引)组成
·Series对象可以存储整数、浮点数、字符串、Python对象等多种数据类型的数据
.如何创建Series对象
● pd.Series(data,index=index)
import pandas as pd
data = ['李广','小明','小屁股']
s = pd.Series(data = data, index =[1,2,3])
# index手动修改索引
print(s)
print(type(s))
可以将人名改为索引
import pandas as pd
data = ['90','91','92']
index = ['占山','李四','王五']
s = pd.Series(data = data, index =index)
# index手动修改索引
print(s)
1.Series的索引
a.位置索引
. 索引范围[0,N-1]I
b,标签索引
. [索引名称]
. 获取多个标签索引值使用[[标签索引1,标签索引2…]]
c. 切片索引
·[start:stop:step]
d.获取Series的索引和值
.获取索引 s.index
. 获取值 s.values
位置索引
标签索引
多个标签索引案例
切片的操作--位置索引(含头不含尾)
位置索引含头不含尾
切片的操作--标签索引(含头含尾)
标签索引含头含尾
获取Series的索引和值
三.DataFrame对象
●DataFrame对象是Pandas库中的一种数据结构,类似于二维表,由行和列组成。
●与Series一样支持多种数据类型
●创建DataFrame对象
●pd.DataFrame(data,index,columns,dtype)
dtype是每一列数据的数据类型 (小太阳在pandas中是object类型)
(单价的数据类型是float64类型)
1.创建DataFrame对象示例如下:
1.1列表方式创建DataFrame对象
import pandas as pd
data = [['小太阳',320,100],['鼠标',150,50],['小刀',1,200]]
columns = ['名称','单价','数量']
df = pd.DataFrame(data=data,columns=columns)
print(df)
1.2字典方式创建DataFrame对象
#字典方式创建DataFrame对象
import pandas as pd
data={
'名称':['小太阳','鼠标','小刀'],
'单价':[320.9,150,1.5],
'数量':[10,50,20]
}
df = pd.DataFrame(data=data,columns=columns)
print(df)
名称,单价,数量都是列表,最后一列的值是一个字符串
字典所对应的是一个值的时候,就不用列表了,写出来后,每行都采用相同的一个值。
四.DataFrame重要属性
#字典方式创建DataFrame对象
import pandas as pd
data={
'名称':['小太阳','鼠标','小刀'],
'单价':[320.9,150,1.5],
'数量':[10,50,20]
}
df = pd.DataFrame(data=data)
print(df)
print('查看所有元素的值',df.values)
print('查看所有元素的类型',df.dtypes)
print('查看所有的行索引',df.index)
print('查看所有行名称',list(df.index))
df.index = [1,2,3]
print(df)
修改行列表
df.columns=['商品名称','最新单价','实时数量']
print(df)
行列数据的转换
#行列数据的转换
pd.set_option('display.unicode.east_asian_width',True) # 规整 格式
new_df = df.T
print(new_df)
print('查看前N条数据',df.head(1))
print('查看后N条数据',df.tail(1))
# 查看有少行,多少列
print('行',df.shape[0],'列',df.shape[1])
print('查看索引,数据类型,内存信息\n',df.info)
五.DataFrame的重要函数
import pandas as pd
data={
'名称':['小太阳','鼠标','小刀'],
'单价':[320.9,150,1.5],
'数量':[10,50,20]
}
df = pd.DataFrame(data=data)
print(df)
print(df.describe())
# 非空值的个数
print(df.count())