数据准备是机器学习流程中一个重要的前置步骤,分为:数据质量校验、数据分布与趋势探查、数据清洗和数据合并等
数据质量校验
数据质量校验的主要任务是检查原始数据中是否存在噪声数据,常见的噪声数据包括不一致的值、缺失值和异常值
- 一致性校验
- 时间校验
- 时间范围不一致
- 时间粒度不一致
- 时间格式不一致
- 时区不一致
- 字段信息校验
- 缺失值校验
- 异常值校验
import numpy as np
import pandas as pd
array = (51,2618.2,2608.4,2651.9,3442.1,3993.1,3136.1,3744.1,6607.4,4060.3,3614.7,
3295.5,2332.1,2699.3,3036.8,865,3014.3,2742.8,2173.5)
#IQR
percentile = np.percentile(array,[0,25,50,75,100])
IQR = percentile[3] - percentile[1]
uplimit = percentile[3] + 1.5 * IQR
arrayownlimit = percentile[3] - 1.5 * IQR
# 计算异常值
abnormal = [i for i in array if i > uplimit or i < arrayownlimit]
print("异常值为:\n",abnormal)
prin