Chapters 1 大数据挖掘及应用概论

Chapters 1 大数据挖掘及应用概论

1.1大数据智能分析处理的普及和应用

什么是云计算?
    基于互联网的相关服务的增加、使用和交付模式,通常设计通过互联网来提供动态易扩展且经常是虚拟化的资源。
什么是大数据?
    从资源视角看,大数据是新资源,体现了一种全新的资源观。
    从技术视角看,大数据代表了新一代数据管理与分析技术,在超大规模数据集(PB量级)上进行分析、以分布式架构为主的新一代数据管理技术。
    从理念视角看,大数据打开了一种全新的思维角度。

1.2大数据的发展以及挑战

大数据的5V特点是什么?
    Velocity——实时性
    Value——价值大
    Volumn——体量大
    Variety——多样性
    Veracity——真实性
大数据具备什么样的特征?
*稠密与稀疏共存——局部稠密与全局稀疏
*冗余与缺失并存——大量冗余与局部缺失
*显示与隐式均有——大量显示与丰富隐式
*静态与动态互现——动态演进与静态关联
*多元与异质共处——多元多变与异质异性
*量大与可用矛盾——量大低值与可用稀少
        从数据本身的角度而言,大数据技术能够发现数据之间存在的直接或间接的关联性,通过采用一系列技术和方法挖掘并发展数据中蕴含的价值,包括数据采集、预处理、存储、分析挖掘、可视化等。
大数据智能分析处理面临的挑战有什么?
*系统平台方面
    大数据处理与硬件协同
    大数据集成
    大数据隐私
    大数据能耗
    大数据管理
*分析处理方面
    大数据质量
    大数据实时性
    大数据采样
    大数据不一致性
    大数据不确定性
注意:大数据主要处理非结构化数据(图片、颜色等)

1.3数据挖掘概述

什么是数据挖掘?
数据挖掘就是知识发现的过程:
    (1)数据清理——消除噪声和删除不一致数据
    (2)数据集成——多种数据源可以组合在一起,形成数据集市或数据仓库
    (3)数据选择——从数据库中提取与分析任务相关的数据
    (4)数据变换——通过汇总或聚集操作,把数据经过变换统一成适合挖掘的形式
    (5)数据挖掘——使用智能方法提取数据模式
    (6)模式评估——根据某种兴趣度量,识别代表知识的真正有趣的模式
    (7)知识表示——使用可视化和知识表示技术向用户提供挖掘的知识
简而言之,数据挖掘就是发现隐含规律
在这里插入图片描述
在这里插入图片描述
常见的数据挖掘功能有哪些?
    *聚类:大数据分成不同的群组,群组之间差异明显
    *分类:构造一个分类器,把数据映射到定类别中的某一个
    *关联分析:寻找数据中值的关联和相关性
    *数据总结:对数据进行浓缩,给出它的紧凑描述
    *偏差检测:对分析对象的少数的、极端的特例进行描述,揭示内在的原因
    *预测:把握分析对象发展的规律,对未来的趋势做出预见
数据挖掘都用到哪些技术?
    *统计学
    *机器学习
    *数据库与数据仓库
    *信息检索
    *可视化

1.4大数据挖掘的计算框架

大数据处理的关键框架
在这里插入图片描述
大数据挖掘的几个步骤
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值