基于python的数据处理_基于Python的数据分析-5.数据处理(下)

排名索引

重新排序:sort_indexSeries 的 sort_index 方法可以对 index 进行排序操作,其中 ascending 参数用于声明升序或降序,例:sort_index(ascending = True)表示升序排列

sort_index(ascending = False)表示降序排列

DataFrame中用sort_index(axis = 0, by = None ,ascending = True)表示axis为轴向,0表示行,1表示列

by为排序对象,例中表示Series.rank()方法是将值替换为名次method参数表示对于相同值采用什么模式,有:average(默认),min,max,first

ascending表示排序方向

重新索引:reindexreindex(index , method = None ,fill_value = np.NaN)method的参数:ffill用前一个非缺失值充填,bfill用下一个非缺失值充填

fill_value表示手动指定

数据合并

记录合并 指将两个结构相同的数据块合并成一个,格式如下:

concat([dataFrame1, dataFrame2, …])

其中:ignore_index = True 表示顺延index

字段合并 指将同一个数据块中的不同列进行合并,形成新的列

X = x1+x2+…

x1 和 x2 分别代表不同的列

字段匹配 将两个不同结构的数据块,按照一定的条件进行匹配(类似于Excal中的VLOOKUP)

merge(x,y,left_on,right_on)

x,y分别表示两个数据块

left_on 表示第一个数据块中用于匹配的列

right_on 表示第二个数据块中用于匹配的列

其他参数:

how:连接方式,包括默认 inner(取交集),outer(取并集),left(左侧df取全部),right

on:用于连接的列名,必须同时存在于两个df中,默认为 left 和 right 列名的交集作为连接键,若键名不同,则如上,通过 left_on 和 right_on 指定连接键

数据计算

简单计算 是对各字段进行加减乘除等数学运算

数据标准化 数据标准化是数据分析的一项基础工作。指标往往有不同的刚量和单位,为了消除这些影响,需要进行标准化处理,以解决数据之间可比性的问题。常用方法有:min - max 标准化(Min-Max Normalization)又名离差标准化,是对原始数据的线性转化

X* = (x - min)/(max - min)

当有新数据加入时需要重新进行数据归一化

Z-score标准化方法适用于最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。

给予原始数据的均值和标准差进行数据标准化,经过处理的数据符合标准正态分布

X* = (x - μ) / σ

使用sklearn.preprocessing.scale()函数,可直接将给定数据标准化

数据分组

数据分组是根据数据对象的特征,按照一定的指标,将数据划分为不同的区间进行研究,用来揭示内在的联系和规律性。

cut(series , bins , right = true , labels = NULL)

series 表示需要分组的数据

bins 表示分组的依据数据

right 表示右边是否闭合

labels 表示分组的自定义标签(非必填)

日期处理

日期转换 将字符型的日期转换为日期格式

to_dateime(dateString,format)

format的格式(大小写敏感):

日期格式化 将日期型数据按照指定格式输出为字符型数据

date.apply(lambda x : datetime.strftime(x , format))

apply 用于对整行或整列进行函数操作

日期抽取

从日期格式中抽取需要的部分属性

date.dt.property

property可以表示为:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值