Hadoop系统入门之概述

大数据生态圈:
Hadoop生态圈。
Spark生态圈。

课程安排:
大数据概述
初识Hadoop
分布式文件系统HDFS
分布式资源调度YARN
分布式计算框架MapReduce
Hadoop项目实战
数据仓库Hive
Hive项目实战
Hadoop分布式集群搭建

环境参数
Linux版本:CenOS(7)
Hadoop版本:CDH(5.15.1)
大数据概述:
大数据故事
大数据的技术概念
什么是大数据
大数据带来的挑战
大数据带来的技术变革
大数据典型应用
大数据现存的模式

案例:

在这里插入图片描述
什么是大数据:

在这里插入图片描述大数据之4V特征a:
在这里插入图片描述
大数据带来的技术变革
技术驱动: 数据量大。
存储: 文件存储==》分布式存储。
计算: 单击 》分布式计算
网络: 万兆
DB: RDBMS
》NoSQL(Hbase/Redis……)
商业驱动

大数据存在的模式:
	手握大数据,没有大数据思维。
	没有大数据,有大数据思维。
	既有大数据,又有大数据思维。

大数据的技术概念:
在这里插入图片描述大数据技术概念:
单机:CPU Memory Disk
分布式并行计算/处理
数据采集:Flume Sqoop
数据处理/分析/挖掘 : Hadoop,Spark,Flink……
数据存储 : Hadoop
可视化

船的选择
	廉价:
	中高价值:

运输过程拆开
	货物搬到船上: 数据采集 数据存储。
	处理: 小于多少的石头扔了,精细化的筛选。

大数据在技术架构上带来的挑战
对现有数据库管理技术的挑战。
经典数据库技术并没有考虑数据的多类别。
实时性的技术挑战。
网络架构,数据中心,运维的挑战。
数据隐私。
数据源复杂多样。

挑战分析之如何对大数据进行存储和分析呢?
系统瓶颈: 存储容量,读写速度,计算效率。
Google大数据技术: MapReduce BigTable GFS。

Google只发表了技术论文,并没有开源代码

在这里插入图片描述
一个模仿Google大数据技术的开源实现来了
在这里插入图片描述
大数据典型应用:
count/sum/avg

group by/join

窗口分析函数

异常/欺诈检测

人工智能



报表

用户细分

指标监控

指标预警
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值