数据分析 numpy基础（三）

最新推荐文章于 2021-02-11 01:59:31 发布

behrends

最新推荐文章于 2021-02-11 01:59:31 发布

阅读量167

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/behrends/article/details/101310594

版权

6 篇文章 0 订阅

订阅专栏

1. 合并数据

横向堆叠，将两个表在x轴向拼接在一起：

pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'

参数名称	说明
objs	接受多个series，dataframe，panel组合，表示参与的组合
axis	连接的轴向，axis=0纵向拼接，axis=1横向拼接
join	接受inner或outer，表示是按交集（inner）还是并集（outer）进行合并
join_axes	接受index对象。表示其他n-1条轴的索引

纵向堆叠：append()法，前提是两张列表名字需要完全一样

pd.append(self,other,ignore_index=false

pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)

pd.join(self,other,on=none,how="left")#两个主键名字必须相同

pd.dataframe.combin_first(other)

def delRep(list1):
    list2=[]
    for i in list1:
        if i not in list2:
           list2.append(i)
   return list2

或者使用set函数进行去重，但会数据排列

使用pd.dataframe.drop_duplicates(self,subset=None,keep="first',inplace=false),不会改变但是只能用打他发么或者series

isnull()识别缺失值，notnull()识别非缺失值，可以结合sum()来检查缺失值

pd.dateframe.dropna(self,axis=0,how='any',inplace=false)，删除缺失值

pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替换缺失值

常用异常值检查：3σ原则和箱线图分析

离散标准化：标准化后数据限定在[0,1]的区间里

标准差标准化：数据分布影响小

小数定标标准化：比较好用

pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)

data是处理的数据，prefix是哑变量化后列名的前缀，columns需要编码的列名

等宽法：pd.cut(x,bins,right=true,labels=none,retbins=false)

参数名称	说明
x	处理的数据
bins	若为int，代表离散化的类别数目，如果为序列数据，这表示切分的区间
right	代表右侧是否为闭区间
labels	离散化后的类别名称
retbins	返回区间标签

关注

专栏目录