基于python的数据处理_基于Python的数据分析-5.数据处理（下）

最新推荐文章于 2023-07-20 17:25:01 发布

weixin_39986060

最新推荐文章于 2023-07-20 17:25:01 发布

阅读量220

点赞数

文章标签：基于python的数据处理

排名索引

重新排序：sort_indexSeries 的 sort_index 方法可以对 index 进行排序操作，其中 ascending 参数用于声明升序或降序，例：sort_index(ascending = True)表示升序排列

sort_index(ascending = False)表示降序排列

DataFrame中用sort_index(axis = 0, by = None ,ascending = True)表示axis为轴向，0表示行，1表示列

by为排序对象，例中表示Series.rank()方法是将值替换为名次method参数表示对于相同值采用什么模式，有：average(默认)，min,max,first

ascending表示排序方向

重新索引：reindexreindex(index , method = None ,fill_value = np.NaN)method的参数:ffill用前一个非缺失值充填，bfill用下一个非缺失值充填

fill_value表示手动指定

数据合并

记录合并指将两个结构相同的数据块合并成一个，格式如下：

concat([dataFrame1, dataFrame2, …])

其中：ignore_index = True 表示顺延index

字段合并指将同一个数据块中的不同列进行合并，形成新的列

X = x1+x2+…

x1 和 x2 分别代表不同的列

字段匹配将两个不同结构的数据块，按照一定的条件进行匹配（类似于Excal中的VLOOKUP）

merge(x,y,left_on,right_on)

x，y分别表示两个数据块

left_on 表示第一个数据块中用于匹配的列

right_on 表示第二个数据块中用于匹配的列

其他参数：

how：连接方式，包括默认 inner（取交集），outer（取并集），left（左侧df取全部），right

on：用于连接的列名，必须同时存在于两个df中，默认为 left 和 right 列名的交集作为连接键，若键名不同，则如上，通过 left_on 和 right_on 指定连接键

数据计算

简单计算是对各字段进行加减乘除等数学运算

数据标准化数据标准化是数据分析的一项基础工作。指标往往有不同的刚量和单位，为了消除这些影响，需要进行标准化处理，以解决数据之间可比性的问题。常用方法有：min - max 标准化（Min-Max Normalization）又名离差标准化，是对原始数据的线性转化

X* = (x - min)/(max - min)

当有新数据加入时需要重新进行数据归一化

Z-score标准化方法适用于最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。

给予原始数据的均值和标准差进行数据标准化，经过处理的数据符合标准正态分布

X* = (x - μ) / σ

使用sklearn.preprocessing.scale()函数，可直接将给定数据标准化

数据分组

数据分组是根据数据对象的特征，按照一定的指标，将数据划分为不同的区间进行研究，用来揭示内在的联系和规律性。

cut(series , bins , right = true , labels = NULL)

series 表示需要分组的数据

bins 表示分组的依据数据

right 表示右边是否闭合

labels 表示分组的自定义标签（非必填）

日期处理

日期转换将字符型的日期转换为日期格式

to_dateime(dateString,format)

format的格式（大小写敏感）：

日期格式化将日期型数据按照指定格式输出为字符型数据

date.apply(lambda x : datetime.strftime(x , format))

apply 用于对整行或整列进行函数操作

日期抽取

从日期格式中抽取需要的部分属性

date.dt.property

property可以表示为：

weixin_39986060

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于python的数据处理_基于Python的数据分析-5.数据处理（下）

排名索引重新排序：sort_indexSeries 的 sort_index 方法可以对 index 进行排序操作，其中 ascending 参数用于声明升序或降序，例：sort_index(ascending = True)表示升序排列sort_index(ascending = False)表示降序排列DataFrame中用sort_index(axis = ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。