数据标准化
数据标准化是指让所有数据等比例缩放,使之落入特定区间便于计算与分析,常用的有0-1标准化,公式为:
代码实现如下:
# -*- coding: utf-8 -*-
import pandas as pd
df = pd.read_csv(r"/Users/herenyi/Downloads/4/4.14/data.csv",encoding = 'UTF-8');
df['normalization'] = (df.score-df.score.min())/(df.score.max()-df.score.min())
数据分组
数据分组是指对要分析的数据对象,按照一定的数据区间进行分组,以用来研究内部规律和信息。主要由pandas.cut(x,bins,right=True,labels=None)函数来实现,常用的四个参数分别为要分组的数据集x,bins代表分组的划分数组,right代表每个分组右边是否闭合,默认闭合以及labels为分组的自定义标签。
首先还是读取文件和确定分组。