pandas 常用内容

mm111222555

已于 2022-10-20 13:47:37 修改

阅读量224

点赞数

文章标签： pandas python 数据分析

于 2022-10-19 18:47:25 首次发布

本文链接：https://blog.csdn.net/mm111222555/article/details/127413268

版权

import pandas as pd;
import numpy as np;

1、生成数据表

#导入数据表

df=pd.dataframe(pd.read_csv('name.csv,header=1))
df=pd.dataframe(pd.read_excel('name.excel))

#创建数据表

df=pd.dataframe({"city":["Beijing","Shanghai","Guangzhou"],
                "id":[001,002,003,004],
                 "date":pd.date_range("20120101",periods=6)},
                 columns=["city","id","date"])

2、数据表检查

#查看数据表的维度,返回行列
df.shape

#查看数据表的信息,返回字段、字段类型
df.into

#查看某一列的数据类型
df["B"].dtype
 
#查看空值
df.isnull()

#查看city列中的唯一值
df["city"].unique()

#查看数据表的值
df.values

#查看列名称
df.columns

#查看前3行数据
df.head(3)

#查看最后3行
df.tail(3)

3、数据表清洗

#删除数据表中含有空值的行
df.dropna(how='any')

#使用数字0填充数据表中空值
df.fillna(value=0)

#使用price均值对NA进行填充
df['price'].fillna(df['price'].mean（））

#清除city字段中的字符空格
df['city'].map(str.strip)

#city列大小写转换
df['city'].str.lower()

#更改数据格式
df.astype('int')

#更改列名称
df.rename(columns={'category':'category-size'})

#删除后出现的重复值
df['city'].drop_duplicates(keep='last')

#数据替换
df['city'].replace('sh','shanghai')

4、数据预处理

df1=pd.dataframe({'city':['beijing','shanghai','guangzhou'],
                  'id':[1001,1002,1003,1004],
                  'gender':['male','female','male','male'],
                  'pay':['Y','M','H','P']})
#数据表匹配合并
df_inner=df.merge(df,df1,how='inner')
df_left=df.merge(df,df1,how='left')
df_right=df.merge(df,df1,how='right')


#设置索引列
df.inner.set_index('city')

#按特定列的值排序
df_inner.sort_values(by=['age'])

#按索引列排序
df_inner.sort_index()

#设置分组，如果price列的值>3000，group列显示high，否则显示low
df_inner['group']=np.where(df_inner['price']>3000,'high','low')

#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city']=='beijing')&（df_inner['price']>4000）,’sign‘]=1

#数据分列

5、数据提取

6、数据筛选

7、数据汇总

8、数据统计

9、数据输出