常用数据处理
这里主要介绍了包括以下几种类型的数据处理:
- 数值型数列均值、方差、分位数的计算
- 噪声数据过滤
- 缺失值补全方法
1. 实现数值型数列均值、方差、分位数的计算
1.1 均值计算
1、传入数据;
2、然后是构造计算均值的函数;
3、步骤为:(1)传入要计算列的参数;(2)设置变量存储该列数据的总和,以及设置变量存储数据的长度;(3)长度调用len()函数;(4)数据总和循环整个长度(也可以设置循环当有值存在时,长度加1,同时累加数据的和);(5)数据总和除以数据长度得到均值(需满足长度不为0);
4、调用函数,得到计算结果:
def LoadData(dataSet):
data = pd.read_csv(dataSet)
data.replace(to_replace='NaN', value=0, regex=True, inplace=True)
return data
def GetMean(dataSet):
"计算均值"
sumOfData = 0 #存储数据的总和
lengthOfData = len(dataSet) #存储数据的长度
for i in range(len(dataSet)):
#循环求和
sumOfData = sumOfData + float(dataSet.loc[i])
if lengthOfData != 0 :
#返回均值
return sumOfData/lengthOfData
else:
return '此数据无均值'
1.2 方差计算
1、传入数据;
2、然后是构造计算方差的函数;
3、步骤为:(1)传入要计算的数据列;(2)设置变量存储该列的均值,调用之前构造的均值计算函数;(3)设置变量存储数据列中每个值与均值差值的平方和,通过循环整个数据列的长度,其中平方和计算调用了pow(x,2)函数,也可以使用x**2计算;(4)若数据长度不为0返回方差结果。
4、调用函数,得到计算结果:
def LoadData(dataSet):
data = pd.read_csv(dataSet)
data.replace(to_replace='NaN', value=0, regex=True, inplace=True)
return data
def GetVar(dataSet):
"计算方差"
average = GetMean(dataSet) #得到均值
lengthOfData = len(dataSet)
variance = 0
for i in range(len(dataSet)):