数据分析 numpy基础(三)

1. 合并数据

堆叠合并数据

横向堆叠,将两个表在x轴向拼接在一起:

pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'

参数名称说明
objs接受多个series,dataframe,panel组合,表示参与的组合
axis

连接的轴向,axis=0纵向拼接,axis=1横向拼接

join接受inner或outer,表示是按交集(inner)还是并集(outer)进行合并
join_axes接受index对象。表示其他n-1条轴的索引

纵向堆叠:append()法,前提是两张列表名字需要完全一样

pd.append(self,other,ignore_index=false

主键合并

 pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)

pd.join(self,other,on=none,how="left")#两个主键名字必须相同

重叠合并

pd.dataframe.combin_first(other)

2.清洗数据

记录去重

def delRep(list1):
    list2=[]
    for i in list1:
        if i not in list2:
           list2.append(i)
   return list2

或者使用set函数进行去重,但会数据排列 

使用pd.dataframe.drop_duplicates(self,subset=None,keep="first',inplace=false),不会改变但是只能用打他发么或者series

 4.检查和处理缺失值

isnull()识别缺失值,notnull()识别非缺失值,可以结合sum()来检查缺失值

pd.dateframe.dropna(self,axis=0,how='any',inplace=false),删除缺失值

pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替换缺失值

常用异常值检查:3σ原则和箱线图分析

5.标准化处理

离散标准化:标准化后数据限定在[0,1]的区间里

标准差标准化:数据分布影响小

小数定标标准化:比较好用

6.转变数据

哑变量处理:

pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)

data是处理的数据,prefix是哑变量化后列名的前缀,columns需要编码的列名

离散化:

          等宽法:pd.cut(x,bins,right=true,labels=none,retbins=false)

参数名称说明
x处理的数据
bins若为int,代表离散化的类别数目,如果为序列数据,这表示切分的区间
right代表右侧是否为闭区间
labels离散化后的类别名称
retbins返回区间标签

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值