数模学习笔记1——数据预处理

        大数据的题目需要进行数据预处理,处理缺失值和异常值

缺失值、异常值的检测和处理

        数据的不一致:比如说单位的不同,kg和g

        噪声数据:数据中存在明显的错误或异常(偏离期望值)

                收集数据时出现失误或者设备出现故障;

                输入或传输数据时有误;

                存储介质有可能出现损坏;

        数据预处理的任务:

                数据清洗:去掉噪声数据,纠正不一致

                数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集

                数据规约:通过聚集、删除冗余属性或者聚类等方法进行压缩

                数据变换:对数据进行规范化的操作,转换成适当的格式,比如说简单函数变换、归一化(按照比例映射缩放)

       

        缺失值处理:

                处理缺失值的方法:删除记录or数据插补,插补方法有均值/中位数/众数插补,使用固定值,最近邻插补,回归方法,插值法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值