一.大数据分析与处理概论

背景: 云计算+大数据时代
政策: 突破大数据挖掘技术

一.什么是大数据

大数据: 人机交互的互联式计算系统(人生产资源,消耗资源,成为资源)

1.政界定义

推动信息计算能力实现:

  • 按需供给
  • 信息技术和数据资源充分利用

2.学界定义

  • 基于互联网的相关的服务增加 使用和交互的模式
  • 虚拟化的资源服务

3.大数据具体特征

  • 稠密与稀疏共存: 局部稠密与全局稀疏
  • 冗余与缺失并存: 大量冗余与局部缺失
  • 显式与隐式均有: 大量显式与丰富隐式
  • 静态与动态互视: 动态演进与静态关联
  • 多元与异质共处: 多元多变与异质异性
  • 量大与可用矛盾:量大低值与可用稀少

二.大数据智能分析处理的挑战

1.系统平台的挑战

  • (1) 大数据系统处理与硬件协调
  • (2) 大数据集成
  • (3) 大数据隐私
  • (4) 大数据能耗
  • (5) 大数据管理

2.分析处理方面

  • (1) 大数据质量
  • (2) 大数据实时性
  • (3) 大数据采集
  • (4) 大数据不一致性
  • (5) 大数据超高维性
  • (6) 大数据不确定性

三.数据挖掘概述

1.数据挖掘基本流程

  • 数据清洗: 消除噪声,删除不一致数据
  • 数据集成: 多种数据集成,形成数据集市
  • 数据选择: 从数据库中提取与分析相关的数据
  • 数据变化: 通过汇总或聚焦,统一数据
  • 数据挖掘: 智能方法提取数据
  • 模式评估: 以兴趣为度量,识别代表知识的模式
  • 知识表示: 可视化显示数据

2.数据挖掘功能

数据描述: 对某类对象的内涵进行概括,描述。

  • (1)聚类: 根据最大化类内相似性,最小化类内相似性,对数据进行子集划分。
  • (2)分类: 在知道训练元组分类情况下的 “监督” 学习
  • (3)关联分类: 多个变量之间的规律
  • (4)数据总结: 对数据进行浓缩,给出紧凑描述
  • (5)偏差预测: 寻找观察结果与参照值之间有意义的差别,并描述和解释差别原因
  • (6)预测: 对样本数据的关联性学习得到预测模型,从而进行未来的预测

3.数据挖掘运用的技术

4.大数据挖掘or传统数据挖掘

  • (1)大数据挖掘降低了对传统数据挖掘模型和算法的依赖
  • (2)大数据挖掘降低了因果关系对结果精度的影响
  • (3)大数据挖掘最大程度分析用户行为数据

四.大数据挖掘计算框架

1.关键大数据框架

Hadoop架构提供功能
Hadoop Common Package系统交互及支撑
Hadoop Distributed File System分布式文件管理系统
Hadoop YARN任务调度和集群资源管理
MapReduce Engine分布式计算
Hive数据仓库工具将Mysql转换为MapReduce任务
HBase分布式数据库,列数据库
Mahout机械学习+和数据挖掘库
SparkMapReduce 加钱升级版(基于内存,所以快和贵)

2.大数据挖掘处理基本流程

  • (1)数据采集:接受客户端数据
  • (2)数据存储:分布式存储数据
  • (3)ETL:用Sqoop,DataX处理数据
  • (4)数据计算:用MapReduc,Spark,Impala计算数据
  • (5)数据分析与挖掘:用Mahout,Mllib进行机器学习
  • (6)数据可视化:用D3,js,ECharts进行可视化
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唐-import-某人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值