读《python数据挖掘与分析实战》之四

数据预处理

在数据挖掘中,海量的原始数据中存在着大量不完整,不一致,有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成,转换,规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或者工具。

数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约

数据清洗

数据清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值

缺失值处理

处理缺失值的方法有三种:删除记录,数据插补和不处理

通过删除小部分记录达到既定的目标,那么删除含有缺失值的记录的方法是最有效的,然而,这种方法却有很大的局限性,它是以减少历史数据来换取数据的完备,会造成资源的大量浪费,将丢弃了大量隐藏在这些记录中的信息。有些模型可以将缺失值视作一种特殊的取值,允许直接在含有缺失值的数据上进行建模。

拉格朗日插值法和牛顿插值法,另外还有Hermite插值,分段插值,样条插值法

百度自我查看

说明在python的scipy提供了拉格朗日插值法的函数,牛顿插值法没有提供

案例代码后续补上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值