数据框的合并排序、描述统计、分箱
一、表合并
二、数据框排序
三、描述性统计
四、变量与索引的相互转化
五、分箱
六、分类变量转虚拟变量
七、数据框对象的复制
八、字符串变量的常用方法
九、删除重复项
十、数据抽样
一、表合并
1、纵向合并
# 导入库
import pandas as pd
import numpy as np
#建立两个表
data1=pd.DataFrame(np.random.rand(4,3),columns=['x1','x2','x3'])
data2=pd.DataFrame(np.random.rand(4,3),columns=['x2','x3','x4'])
# append 纵向合并
data1.append(data2,ignore_index=True)
# ignore_index=True 表示忽略本来的索引,合并后生成新的索引,默认False,按原有索引
# 如果data1和data2的index值有重复的话就会提示出错。verify_integrity参数的默认值为False
# pd.concat 纵向合并
pd.concat([data1,data2],axis=0,ignore_index=True) #合并的两个表要放在一个列表中
2、横向合并
# 建两个表
data1=pd.DataFrame(np.random.rand(4,3),columns=["x1","x2","x3"])
data2=pd.DataFrame(np.random.rand(4,3),columns=["x4","x5","x6"],index=(range(1,5)))
pd.concat([data1,data2],axis=1,join='inner')
#加上join参数的设定,如果为’inner’表示两表的交集,如果是outer(默认)表示两表的并集
#横向合并:pd.merge方法
# 导入三表
individual1=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual1.xlsx")
individual2=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\individual2.xlsx")
family=pd.read_excel("D:\\CDA数分学习资料\\python\\数据清洗\\pandas\\family.xlsx")
# 补齐pid列
# 方法1
individual1['pid']=individual1['pid'].astype(str).map(lambda x:x.zfill(7)) # zfill 零填充
#方法2
def f1(x):
return '0'*(7-len(str(x)))+str(x)
individual1['pid']=individual1['pid'].map(f1)
individual2['pid']=individual2['pid'].map(f1)
# 一表和一表合并
data1=pd.merge(individual1,individual2,left_on='pid',right_on='pid',how='outer',suffixes=('_1','_2'))
# 处理重复列
data1['fid_1'].fillna(data1['fid_2'],inplace=True) # 将fid_2的值赋值给fid_1
data1.drop(columns=['fid_2'],errors='ignore',axis=1,inplace=True) # 删除 fid_2
data1.rename(columns={"fid_1":"fid"},inplace=True) # fid_1重命名为fid
data1['年龄_2'].fillna(data1['年龄_1'],inplace=True)
data1.drop(columns=['年龄_1'],errors='ignore',axis=1,inplace=True)
data1.rename(columns={"年龄_2":"年龄"},inplace=True)
#多表和一表合并,表的前后位置不影响结果
data2=pd.merge(data1,family,left_on='fid',right_on='fid',how='outer')
data2.to_excel("整理好后的数据.xlsx",index=False) # 导出表格
参数how表示连接方式,有四个可能取值’left’, ‘right’, ‘outer’, ‘inner’, 默认的取值是 ‘inner’。 left_on是设定左表的连 接变量,right_on是设定右表的连接变量。 suffixes是设定重复列的变量名后缀,以便知道重复列来自哪张表
二、数据框排序
data1=pd.DataFrame(np.random.rand(4,3),
columns=['x1','x2','x3'],index=np.arange(4)[::-1])
# 数据框实例的sort_values方法
data1.sort_values(by="x1",ascending=True) # 按x1列升序排序
data1.sort_values(by=['x1','x2'],ascending=[True,False]) #先按x1升序,再按x2降序,经常x2没用
#需要知道的是ascending=True是升序,ascending=False是降序。
#inplace 参数的默认取值是False,如果设定为True,则会直接作用于原数据框实例。
#数据框实例的sort_index方法
data1.sort_index(ascending=True,inplace=True)
三、描述性统计
data1.describe() #如果括号内不设定任何参数,则会对所有数值类型的变量进行描述统计。
data1.describe(exclude=['object'],percentiles=[0.1,0.2])
#通过include参数可以选择对哪些类型的变量进行描述统计。
#通过exclude参数可以选择不对哪些类型的变量进行描述统计。
#percentiles参数可以设定报告哪些分位数,默认是[.25, .5, .75] data1.describe(exclude=["object"],percentiles=[0.1,0.2])
#中位数是不用设定也会报的。
# 变量的值统计
data1['地域编码'].value_counts() # 默认计算频数并降序排序
data1["年龄"].groupby(data1['性别']).max() #按性别分组后求年龄最大值
#除了max还有min,mean,median,sum,quantile,var,std,skew等
data1["年龄"].groupby(data1["性别"]).describe() #分组多个描述统计
# 聚合方法 agg() 指定描述统计
data1[['年龄','受教育程度']].groupby(data1['性别']).agg(['mean','max','min'])
data1["年龄"].groupby(data1["性别"]).agg([lambda x:np.quantile(x,0.1)]) #可放入自定义匿名函数
# 分组对象的transform方法
data1['年龄'].groupby([data1['性别']]).transform(np.mean)
data1["年龄"].groupby([data1["性别"]]).transform(lambda x:x.count())
# transform 也可以放入自定义匿名函数lambda
#和agg方法的区别在于transform方法返回的对象的长度和原数据框的行数相等。而且索引和原数据框或者序列的索引保持一致。行数相同这样就可以做合并做缺失值处理。
# 数据透视表
data1.pivot_table(values=["年龄","受教育程度"],index=["地域编码","性别"], aggfunc={"年龄":[np.mean,np.max],"受教育程度":np.mean}) # aggfunc 可以对某列做单独的统计
四、变量与索引的相互转化
# 列变成索引
data1.set_index(['pid'],drop=False) #将pid列设为索引,drop参数False表示保留pid原有列,反之删除
# inplace参数,默认值为False
#索引变列
temp.reset_index() # 将temp中索引转换成列
temp.reset_index().reset_index() # 新增索引,原有索引变成列
五、分箱
# cut 分箱 缺点不能保证每个组分的均匀
pd.cut(data1["年龄"],3) #cut 自动生成了大概3个等距的离散区间
data1["年龄段"]=pd.cut(data1.年龄, [0,45, 59, 74, 89,120], # 指定划分区域并添加标签
labels=["青年", "中年", "老年前期","老年","长寿老人"])
# pd.qcut 用分位数分箱 均匀分布
pd.qcut(data1['年龄'],4,labels=[1,2,3,4]) #均匀分成4个区间
六、分类变量转虚拟变量
pd.get_dummies(data1["性别"],prefix="性别")
# 如果写上参数drop_first=True,删除第一个虚拟变量,也就是会删除‘性别_女’列
pd.concat([data1,pd.get_dummies(data1['性别'],prefix='性别')],axis=1)
# 横向合并data1和新增的性别两列
[外链图片转存失败(img-Rmsi9mzF-1567323775307)(D:\学习知识整理\Python\图片\数据框的合并图片.png)]
七、数据框对象的复制
#浅复制,一个改变,另一个也会改变。
data2=data1
#深复制,单独改变一方,另一方不受影响
data3=data1.copy(deep=True)
八、字符串变量的常用方法
data1.fid.str.len() #计算字符串的长度
data1.fid.str.replace("f","a") #对字符串变量进行查找替换
data1.fid.str.count("0") #计算字符串出现次数
data1.pid.astype(str).str.zfill(5) #填补字符串
#想查看更多函数,请运行下面的命令
print(dir(data1.fid.str))
series1=pd.Series(["河北省衡水市","河北省石家庄市","河南省郑州市"])
#正则表达式匹配。
series1.str.extract(r"(.+省)") # 将--省提出来
九、删除重复项
# duplicated()判断是否是重复的项
data1.duplicated() # 第一次出现False,第二次出现就是True,返回布尔值
data1.drop_duplicates(subset=['数学','英语'],keep='first') # 判断‘数学’‘英语’两列有没有重复值
# 参数keep 默认是first,表示保留第一次出现的,这个方法有inplace参数。
十、数据抽样
data2.sample(frac=0.1) #设定抽取样本比例为10%。
#参数replace=False表示无放回抽样。
#参数random_state是设定随机种子,保证每次运行代码抽取到的样本一样
t’) # 判断‘数学’‘英语’两列有没有重复值
参数keep 默认是first,表示保留第一次出现的,这个方法有inplace参数。
#### 十、数据抽样
data2.sample(frac=0.1) #设定抽取样本比例为10%。
#参数replace=False表示无放回抽样。
#参数random_state是设定随机种子,保证每次运行代码抽取到的样本一样