DataMining 第三章数据预处理笔记

一、为什么进行数据预处理 ?

定义数据质量的三大要素是:accuracy, completeness, and consistency.

数据的质量取决于你要用数据做什么用途,不同的用途会对数据质量评价的标准不同。

记录数据的及时性也会影响到数据的质量。假设在一家商业公司,月末进行销售额统计但是各个部门经理没有及时上报自己部门的销售额,那么在一段时间内这个数据是不精确的。

数据的可信度以及可解释性(能不能让人理解)也很重要,是影响数据质量的其他两个因素。

二、数据预处理的主要任务

1.数据清理是日常的工作。这一步主要是做弥补缺失数值,平滑噪声数据,识别或者移除离群点,检查数据不一致性。

2.数据集成。因为在集成 不同数据库中的内容时, 你会发现有很多重复的数据,或者指向同一个内容的数据,那么在这一步需要对数据进行集成,删除重复数据。

3.数据归约。数据归约的目的是为了减小数据集的体积,但是同时能够达到和未缩减数据模型一样的效果。他包括了维归约和数值归约。

维归约:使用数据编码的方案让原始数据得到简化或者压缩表示。

数值归约:使用参数模型或者非参数模型用较小的表示取代数据。

规范化,数据离散化和概念分层产生都是某种形式的数据变换(data transformation)

数据预处理的过程步骤分类不是互斥的。比如说数据清理是一种数据清理形式也是一种数据归约。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
No part of this publication may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording, or any information storage and retrieval system, without permission in writing from the publisher. Details on how to seek permission, further information about the Publisher’s permissions policies and our arrangements with organizations such as the Copyright Clearance Center and the Copyright Licensing Agency, can be found at our website: www.elsevier.com/permissions. This book and the individual contributions contained in it are protected under copyright by the Publisher (other than as may be noted herein). Notices Knowledge and best practice in this field are constantly changing. As new research and experience broaden our understanding, changes in research methods or professional practices, may become necessary. Practitioners and researchers must always rely on their own experience and knowledge in evaluating and using any information or methods described herein. In using such information or methods they should be mindful of their own safety and the safety of others, including parties for whom they have a professional responsibility. To the fullest extent of the law, neither the Publisher nor the authors, contributors, or editors, assume any liability for any injury and/or damage to persons or property as a matter of products liability, negligence or otherwise, or from any use or operation of any methods, products, instructions, or ideas contained in the material herein.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值