1. 安装pandas
pip install pandas
2. 使用pandas (这里我们jupyter lab 交互笔记)
黑窗口下 启动: jupyter lab
3.导入 pandas 包
import pandas as pd
data = pd.read_csv('文件路径',编码)
查看数据类型
print(type(data))
#pandas有两种类型: DataFrame类型(处理二维,常用)
# Series类型(处理一维, 不常用)
查看数据信息,数据大小
data.info()
获取数据的值
data.values
#得到的是一个ndarray类型
取出头部和尾部数据
#不写值 , 默认取头部5条
data.head(n)
#不写值 , 默认取尾部5条
data.tail(n)
取单列,多列
#单列
data['列名']
#多列
data[['列1','列2']]
iloc函数 取数据
#基于整数的索引方式 跟 python自身的list 的索引方式是十分类似(切片)
data.iloc[0]
#取1行
data.iloc[0:10]
#取10行
data.iloc[0:10,0:3]
#取10行 3列
loc 函数 获取
# 和iloc 的区别 在于 loc是根据 标签名去取 而不是索引
data.loc['名称']
#写的是啥 取的就是 所对应的哪一行
data.loc[['名1','名2'],['名1','名2']]
#获取多行多列的 取法
去除数据内容所存在的空值(NAN)的行
#查看是否有空值
data.isnull()
data.dropna(inplace=True)
# inplace=true 代表的就是修改原数据
删除 空值的列
#即 只要列中存在一个空值, 直接删除掉整个列
data.dropna(axis=1)
# 删除掉有空值所对应的行
data.dropna(axis=0)
去除数据内的空格 或逗号之类的
#apply函数可以对DataFrame对象进行操作,
#去空格 去掉后并重新给它自身列或行 赋值
data['名称'] = data['有空格数据列名'].apply(lambda x:x.strip())
#去字符 例如去逗号:
data['名称'] = data['有空格数据列名'].apply(lambda x:x.replace(',',''))
pandas 获取想要数据, 还可以通过判断
这里是个小例子: 价格大于10元 并且 水果 名叫 苹果的(&即and)
datas= data[(data['price'] > 10)&(data['fruit']=='apple')]
修改列名
data.rename(columns={'原列名':'新列名'})
对筛选出来的数据进行保存
new_data= pd.DataFrame(data)
new_data.to_csv('文件名.csv',编码)
获取某一列 平均值
#求得所有菜品的价格 平均值
data['amounts'].mean()
求某一列的总和
data['amounts'].sum()
对空值NAN 进行均值填充 例如:价格
data['prince'].fillna(data['prince'].mean())
对数据 进行 去重操作
data['名称'].drop_duplicates()
按照特定某一列 进行排序操作
data.sort_values(by=['列名'])
数据表 之间的合并操作
new_data = pd.concat([data1,data2],axis=1) #axis=0行连接, axis=1 列连接
#还有一个 merge() 函数 就不做讲解了
重新定义 索引
data.reset_index()