Python数据处理工具-Pandas

最新推荐文章于 2024-04-17 14:38:25 发布

急着吃饭的李先生

最新推荐文章于 2024-04-17 14:38:25 发布

阅读量481

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_43117447/article/details/100709403

版权

1 序列与数据框的构造

1.1 构造序列

构造一个序列可以使用如下方式实现:

通过列表或元祖构建
通过字典构建
通过numpy中的一维数组构建
通过数据框dataframe中的某一列构建
下面举例说明:

# 导入模块
import pandas as pd
import numpy as np
# 构造序列
gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])
gdp2 = pd.Series({
   '北京':2.8,'上海':3.01,'广东':8.99,'江苏':8.59,'浙江':5.18})
gdp3 = pd.Series(np.array((2.8,3.01,8.99,8.59,5.18)))
print(gdp1)
print(gdp2)
print(gdp3)
0    2.80
1    3.01
2    8.99
3    8.59
4    5.18
dtype: float64
上海    3.01
北京    2.80
广东    8.99
江苏    8.59
浙江    5.18
dtype: float64
0    2.80
1    3.01
2    8.99
3    8.59
4    5.18
dtype: float64

序列与一维数组有极高的相似性,获取一维数组元素的所有方法都可以应用在序列上,而且数组的数学和统计函数也同样可以应用到序列对象上,不同的是,序列会有更多的其他处理方法,下面进行举例:

# 取出gdp1中的第一、第四和第五个元素
print('行号风格的序列：\n',gdp1[[0,3,4]])
# 取出gdp2中的第一、第四和第五个元素
print('行名称风格的序列：\n',gdp2[[0,3,4]])
# 取出gdp2中上海、江苏和浙江的GDP值
print('行名称风格的序列：\n',gdp2[['江苏','上海','浙江']])
# 数学函数--取对数
print('通过numpy函数：\n',np.log(gdp1))
# 平均gdp
print('通过numpy函数：\n',np.mean(gdp1))
print('通过序列的方法：\n',gdp1.mean())
行号风格的序列：
0    2.80
3    8.59
4    5.18
dtype: float64
行名称风格的序列：
上海    3.01
江苏    8.59
浙江    5.18
dtype: float64
行名称风格的序列：
江苏    8.59
上海    3.01
浙江    5.18
dtype: float64
通过numpy函数：
0    1.029619
1    1.101940
2    2.196113
3    2.150599
4    1.644805
dtype: float64
通过numpy函数：
 5.714
通过序列的方法：
 5.714

针对上面的代码需要说明几点,如果序列是行名称风格,既可以使用位置(行号)索引,又可以使用标签(行名称)索引.

1.2 构造数据框

数据框实际上是一个数据集,数据集的行代表每一条观测,数据集的列则代表各个变量.在一个数据框中可以存放不同数据类型的序列,如整数型、浮点型、字符型和日期时间型,而数组和序列则没有这样的优势,因为他们只能存放同质数据.构造一个数据框可以应用如下方式:

通过嵌套的列表或元祖构造
通过字典构造
通过二维数据构造
通过外部数据的读取构造
举例:

# 构造数据框
df1 = pd.DataFrame([['张三',23,'男'],['李四',27,'女'],['王二',26,'女']])
df2 = pd.DataFrame({
   '姓名':['张三','李四','王二'],'年龄':[23,27,26],'性别':['男','女','女']})
df3 = pd.DataFrame(np.array([['张三',23,'男'],['李四',27,'女'],['王二',26,'女']]))
print('嵌套列表构造数据框：\n',df1)
print('字典构造数据框：\n',df2)
print('二维数组构造数据框：\n',df3