pandas 常用内容

import pandas as pd;
import numpy as np;

1、生成数据表

#导入数据表

df=pd.dataframe(pd.read_csv('name.csv,header=1))
df=pd.dataframe(pd.read_excel('name.excel))

#创建数据表

df=pd.dataframe({"city":["Beijing","Shanghai","Guangzhou"],
                "id":[001,002,003,004],
                 "date":pd.date_range("20120101",periods=6)},
                 columns=["city","id","date"])


                

2、数据表检查

#查看数据表的维度,返回行列
df.shape

#查看数据表的信息,返回字段、字段类型
df.into

#查看某一列的数据类型
df["B"].dtype
 
#查看空值
df.isnull()

#查看city列中的唯一值
df["city"].unique()

#查看数据表的值
df.values

#查看列名称
df.columns

#查看前3行数据
df.head(3)

#查看最后3行
df.tail(3)

3、数据表清洗

#删除数据表中含有空值的行
df.dropna(how='any')

#使用数字0填充数据表中空值
df.fillna(value=0)

#使用price均值对NA进行填充
df['price'].fillna(df['price'].mean())

#清除city字段中的字符空格
df['city'].map(str.strip)

#city列大小写转换
df['city'].str.lower()

#更改数据格式
df.astype('int')

#更改列名称
df.rename(columns={'category':'category-size'})

#删除后出现的重复值
df['city'].drop_duplicates(keep='last')

#数据替换
df['city'].replace('sh','shanghai')

4、数据预处理

df1=pd.dataframe({'city':['beijing','shanghai','guangzhou'],
                  'id':[1001,1002,1003,1004],
                  'gender':['male','female','male','male'],
                  'pay':['Y','M','H','P']})
#数据表匹配合并
df_inner=df.merge(df,df1,how='inner')
df_left=df.merge(df,df1,how='left')
df_right=df.merge(df,df1,how='right')


#设置索引列
df.inner.set_index('city')

#按特定列的值排序
df_inner.sort_values(by=['age'])

#按索引列排序
df_inner.sort_index()

#设置分组,如果price列的值>3000,group列显示high,否则显示low
df_inner['group']=np.where(df_inner['price']>3000,'high','low')

#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city']=='beijing')&(df_inner['price']>4000),’sign‘]=1

#数据分列

5、数据提取

6、数据筛选

7、数据汇总

8、数据统计

9、数据输出

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值