机器学习中的数据准备

数据准备在机器学习中至关重要,涉及数据质量校验、分布趋势探查、清洗及合并。数据质量校验检查噪声数据,如不一致、缺失和异常值;分布与趋势分析包括分布分析、对比分析、描述性统计;数据清洗处理缺失和异常值;数据合并通过堆叠和主键匹配整合数据。
摘要由CSDN通过智能技术生成

数据准备是机器学习流程中一个重要的前置步骤,分为:数据质量校验、数据分布与趋势探查、数据清洗和数据合并等

数据质量校验

数据质量校验的主要任务是检查原始数据中是否存在噪声数据,常见的噪声数据包括不一致的值、缺失值和异常值
  • 一致性校验
    • 时间校验
      • 时间范围不一致
      • 时间粒度不一致
      • 时间格式不一致
      • 时区不一致
    • 字段信息校验
      • 同名异义
      • 异名同义
      • 单位不一致
  • 缺失值校验
  • 异常值校验
    • 四分位距(IQR)准则
import numpy as np 
import pandas as pd  

array = (51,2618.2,2608.4,2651.9,3442.1,3993.1,3136.1,3744.1,6607.4,4060.3,3614.7,
3295.5,2332.1,2699.3,3036.8,865,3014.3,2742.8,2173.5)
#IQR
percentile = np.percentile(array,[0,25,50,75,100])
IQR = percentile[3] - percentile[1]
uplimit = percentile[3] + 1.5 * IQR 
arrayownlimit = percentile[3] - 1.5 * IQR 
# 计算异常值
abnormal = [i for i in array if i > uplimit or i < arrayownlimit]
print("异常值为:\n",abnormal)
prin
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值