总结
pandas库是基于numpy,更适合机器学习中对数据进行处理的库,numpy偏向于科学计算,而pandas偏向于对数据的增删改查,并且很方便。
- 将数据生成表(一维,二维,三维)
- 查看表的各种信息
- 脏数据清洗(填充,更改,删除等)
- 数据预处理(排序,合并,分裂等)
- 数据提取
- 数据筛选(逻辑运算)
- 数据计算(求均值,和,差等科学计算)
- 数据统计
- 数据输出
- 可视化画图
将数据生成表
# 首先,在Python编译环境下,导入pandas库
import pandas as pd # 大部分工作者简写为pd
# 此时可以读取文件数据,或者自己生成数据
# 读取文件数据
data = pd.read_csv(r'',header=1) # 读取以csv结尾的文件数据,第一行为列名,如果数据中没有写列名,可以省略
data = pd.read_excel(r'') # 读取以excel结尾的文件数据
# 生成数据
ss = pd.Series() # 生成一维数据
df = pd.DataFrame([[1,2,3],
[1,2,4],
[4,2,5]],columns=['列名1','列名2','列名3'])
# 上述生成二维数据,columns是每列的列名
# 效果
列名1 列名2 列名3
0 1 2 3
1 4 5 6
2 7 8 9
# 第一列为下标索引,默认生成,也可以使用index来更改
查看表的各种信息
数据生成以后,我们可以对其进行各种信息查看,类似于munpy
# 维度查看
df.shape
# 数据表基本信息
df.info()
>> # 效果
>> <class 'pandas.core.frame.DataFrame'>
>> RangeIndex: 3 entries, 0 to 2
>> Data columns (total 3 columns