import pandas as pd;
import numpy as np;
1、生成数据表
#导入数据表
df=pd.dataframe(pd.read_csv('name.csv,header=1))
df=pd.dataframe(pd.read_excel('name.excel))
#创建数据表
df=pd.dataframe({"city":["Beijing","Shanghai","Guangzhou"],
"id":[001,002,003,004],
"date":pd.date_range("20120101",periods=6)},
columns=["city","id","date"])
2、数据表检查
#查看数据表的维度,返回行列
df.shape
#查看数据表的信息,返回字段、字段类型
df.into
#查看某一列的数据类型
df["B"].dtype
#查看空值
df.isnull()
#查看city列中的唯一值
df["city"].unique()
#查看数据表的值
df.values
#查看列名称
df.columns
#查看前3行数据
df.head(3)
#查看最后3行
df.tail(3)
3、数据表清洗
#删除数据表中含有空值的行
df.dropna(how='any')
#使用数字0填充数据表中空值
df.fillna(value=0)
#使用price均值对NA进行填充
df['price'].fillna(df['price'].mean())
#清除city字段中的字符空格
df['city'].map(str.strip)
#city列大小写转换
df['city'].str.lower()
#更改数据格式
df.astype('int')
#更改列名称
df.rename(columns={'category':'category-size'})
#删除后出现的重复值
df['city'].drop_duplicates(keep='last')
#数据替换
df['city'].replace('sh','shanghai')
4、数据预处理
df1=pd.dataframe({'city':['beijing','shanghai','guangzhou'],
'id':[1001,1002,1003,1004],
'gender':['male','female','male','male'],
'pay':['Y','M','H','P']})
#数据表匹配合并
df_inner=df.merge(df,df1,how='inner')
df_left=df.merge(df,df1,how='left')
df_right=df.merge(df,df1,how='right')
#设置索引列
df.inner.set_index('city')
#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()
#设置分组,如果price列的值>3000,group列显示high,否则显示low
df_inner['group']=np.where(df_inner['price']>3000,'high','low')
#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city']=='beijing')&(df_inner['price']>4000),’sign‘]=1
#数据分列
5、数据提取
6、数据筛选
7、数据汇总
8、数据统计
9、数据输出