BigData预处理(完整步骤)

BigData预处理(完整步骤)

虽然题目是完整步骤,实际上并不完整,以下是原文内容

一:为什么要预处理数据?

(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)
(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)
(3)原始数据中存在的问题:
不一致 —— 数据内含出现不一致情况
重复
不完整 —— 感兴趣的属性没有
含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据
高维度
二:数据预处理的方法
(1)数据清洗 —— 去噪声和无关数据
(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式
(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
(5)图说事实
三:数据选取参考原则
(1)尽可能富余属性名和属性值明确的含义
(2)统一多数据源的属性编码
(3)去除唯一属性
(4)去除重复属性
(5)去除可忽略字段
(6)合理选择关联字段
(7)进一步处理:
通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据
四:用图说话,(我还是习惯用统计图说话)
 
数据清洗的路子:刚拿到的数据 —-> 和数据提供者讨论咨询 —–> 数据分析(借助可视化工具)发现脏数据 —->清洗脏数据(借助MATLAB或者Java/C++语言) —–>再次统计分析(Excel的data analysis不错的,最大小值,中位数,众数,平均值,方差等等,以及散点图) —–> 再次发现脏数据或者与实验无关的数据(去除) —–>最后实验分析 —-> 社会实例验证 —->结束。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目录:网盘文件,永久连接 1_分布式数据库概述 2_ FusionInsight LibrA 简介 3_FusionInsight LibrA 产品特性和关键技术 4.1_ FusionInsight LibrA 配套工具集_part1 4.2_FusionInsight LibrA 配套工具集_part2 4.3_FusionInsight LibrA 配套工具集_part3 5_FusionInsight LibrA 安全管理 6_FusionInsight LibrA 数据库管理系统并发控制 7_FusionInsight LibrA 数据库性能监控 8.1_FusionInsight LibrA 数据迁移_part1 8.2_FusionInsight LibrA 数据迁移_part2 9_FusionInsight LibrA SQL介绍(刘吉 20171201) 10.1_FusionInsight LibrA 数据库设计_part1 10.2_FusionInsight LibrA 数据库设计_part2 11_FusionInsight LibrA 应用程序开发指导 12.1_预备知识和数据介绍_数据挖掘的定义 12.2_预备知识和数据介绍_数据挖掘的流程 12.3_预备知识和数据介绍_数据挖掘的应用 12.4.1_预备知识和数据介绍_数据和属性类型_part1 12.4.2_预备知识和数据介绍_数据和属性类型_part2 12.4.3_预备知识和数据介绍_数据和属性类型_part3 12.5_预备知识和数据介绍_数据的统计描述 12.6.1_预备知识和数据介绍_数据的邻近性度量_part1 12.6.2_预备知识和数据介绍_数据的邻近性度量_part2 13.1_数据预处理_为什么要预处理数据 13.2_数据预处理_数据清理 13.3_数据预处理_数据集成 13.4_数据预处理_数据归约 13.5_数据预处理_数据变换 14.1_数据仓库介绍_数据仓库的概念 14.2_数据仓库介绍_数据仓库的体系结构与模型 14.3_数据仓库介绍_多维数据模型 14.4_数据仓库介绍_概念分层 14.5.1_数据仓库介绍_OLAP与OLTP_part1 14.5.2_数据仓库介绍_OLAP与OLTP_part2 14.6_数据仓库介绍_方体物化 15.1_分类(Classification)_分类与回归的概念 15.2.1_分类(Classification)_决策树_part1 15.2.2_分类(Classification)_决策树_part2 15.3_分类(Classification)_朴素贝叶斯分类 15.4_分类(Classification)_组合分类 15.5_分类(Classification)_后向传播分类 15.6_分类(Classification)_支持向量机分类 15.7_分类(Classification)_模型评估与类不平衡问题 16.1_聚类(Clustering)_聚类的定义与k-均值聚类 16.2_聚类(Clustering)_k-中心点聚类 17.1_离群点检测_离群点的定义 17.2_离群点检测_离群点的检测方法 18.1_关联规则(Associate Rule)_关联规则的定义与挖掘步骤 18.2_关联规则(Associate Rule)_关联规则挖掘方法分类与Apriori算法 19.1_FusionInsight Miner 和华为云机器学习服务MLS-1_FusionInsight Miner介绍 19.2_FusionInsight Miner 和华为云机器学习服务MLS-1_关系分析 19.3_FusionInsight Miner 和华为云机器学习服务MLS-1_标签管理 19.4_FusionInsight Miner 和华为云机器学习服务MLS-2 20.1_FusionInsight LibrA实验一 基本操作、语法_part1 20.2_FusionInsight LibrA实验一 基本操作、语法_part2 20.3_FusionInsight LibrA实验一 基本操作、语法_part3 20.4_FusionInsight LibrA实验一 基本操作、语法_part4 21.1_FusionInsight LibrA实验二 性能优化_part1 21.2_FusionInsight LibrA实验二 性能优化_part2 22.1_FusionInsight LibrA 实验三 网络KPI数据栅格化处理_part1 ........

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值