数据挖掘及应用(莫同老师)—— 课程笔记(三)数据预处理

本文详细介绍了数据预处理的各个环节,包括数据预处理的重要性、数据抽取的ETL流程、数据清理方法如遗漏值处理、噪声数据管理、不一致数据的处理,以及标签抽取的TF-IDF方法。通过实例探讨了数据质量、数据仓库和多种数据模型,强调了数据预处理在实际案例中的应用。
摘要由CSDN通过智能技术生成

目录

一、数据预处理概述

二、数据抽取

三、预处理方法

四、标签抽取


一、数据预处理概述

  1. 瑕疵数据的存在与产生原因
  2. 其他需要预处理的情况
  3. 实际案例:某大型保险公司的数据挖掘应用

二、数据抽取

  1. 数据可能散布在不同的业务系统和不同的渠道,所以需要先汇集起来。
  2. 金蝶ETL 解决方案案例
    1. 数据抽取、转换、装载的过程
    2. ETL的前提
    3. ETL的原则:主动拉取,而不是推送
  3. 数据质量:
    1. 正确性
    2. 完整性
    3. 一致性
    4. 完备性
    5. 等等很多
  4. 数据质量原因
  5. ETL过程
    1. 数据抽取
    2. ETL执行的异常处理
  6. 构建数据仓库
    1. 数据仓库(DW)
    2. 数据库(DB)
  7. 多种数据形态
    1. 关系型数据库(特点和不足)
    2. 键值对模型
    3. 文档模型
    4. 列族模型
    5. 图模型

三、预处理方法

  1. 数据清理
    1. 遗漏值
      1. 忽略元组
      2. 人工填写
      3. 其他各
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值