排名索引
重新排序:sort_indexSeries 的 sort_index 方法可以对 index 进行排序操作,其中 ascending 参数用于声明升序或降序,例:sort_index(ascending = True)表示升序排列
sort_index(ascending = False)表示降序排列
DataFrame中用sort_index(axis = 0, by = None ,ascending = True)表示axis为轴向,0表示行,1表示列
by为排序对象,例中表示Series.rank()方法是将值替换为名次method参数表示对于相同值采用什么模式,有:average(默认),min,max,first
ascending表示排序方向
重新索引:reindexreindex(index , method = None ,fill_value = np.NaN)method的参数:ffill用前一个非缺失值充填,bfill用下一个非缺失值充填
fill_value表示手动指定
数据合并
记录合并 指将两个结构相同的数据块合并成一个,格式如下:
concat([dataFrame1, dataFrame2, …])
其中:ignore_index = True 表示顺延index
字段合并 指将同一个数据块中的不同列进行合并,形成新的列
X = x1+x2+…
x1 和 x2 分别代表不同的列
字段匹配 将两个不同结构的数据块,按照一定的条件进行匹配(类似于Excal中的VLOOKUP)
merge(x,y,left_on,right_on)
x,y分别表示两个数据块
left_on 表示第一个数据块中用于匹配的列
right_on 表示第二个数据块中用于匹配的列
其他参数:
how:连接方式,包括默认 inner(取交集),outer(取并集),left(左侧df取全部),right
on:用于连接的列名,必须同时存在于两个df中,默认为 left 和 right 列名的交集作为连接键,若键名不同,则如上,通过 left_on 和 right_on 指定连接键
数据计算
简单计算 是对各字段进行加减乘除等数学运算
数据标准化 数据标准化是数据分析的一项基础工作。指标往往有不同的刚量和单位,为了消除这些影响,需要进行标准化处理,以解决数据之间可比性的问题。常用方法有:min - max 标准化(Min-Max Normalization)又名离差标准化,是对原始数据的线性转化
X* = (x - min)/(max - min)
当有新数据加入时需要重新进行数据归一化
Z-score标准化方法适用于最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
给予原始数据的均值和标准差进行数据标准化,经过处理的数据符合标准正态分布
X* = (x - μ) / σ
使用sklearn.preprocessing.scale()函数,可直接将给定数据标准化
数据分组
数据分组是根据数据对象的特征,按照一定的指标,将数据划分为不同的区间进行研究,用来揭示内在的联系和规律性。
cut(series , bins , right = true , labels = NULL)
series 表示需要分组的数据
bins 表示分组的依据数据
right 表示右边是否闭合
labels 表示分组的自定义标签(非必填)
日期处理
日期转换 将字符型的日期转换为日期格式
to_dateime(dateString,format)
format的格式(大小写敏感):
日期格式化 将日期型数据按照指定格式输出为字符型数据
date.apply(lambda x : datetime.strftime(x , format))
apply 用于对整行或整列进行函数操作
日期抽取
从日期格式中抽取需要的部分属性
date.dt.property
property可以表示为: