大数据生态圈:
Hadoop生态圈。
Spark生态圈。
课程安排:
大数据概述
初识Hadoop
分布式文件系统HDFS
分布式资源调度YARN
分布式计算框架MapReduce
Hadoop项目实战
数据仓库Hive
Hive项目实战
Hadoop分布式集群搭建
环境参数
Linux版本:CenOS(7)
Hadoop版本:CDH(5.15.1)
大数据概述:
大数据故事
大数据的技术概念
什么是大数据
大数据带来的挑战
大数据带来的技术变革
大数据典型应用
大数据现存的模式
案例:
什么是大数据:
大数据之4V特征a:
大数据带来的技术变革
技术驱动: 数据量大。
存储: 文件存储==》分布式存储。
计算: 单击 》分布式计算
网络: 万兆
DB: RDBMS》NoSQL(Hbase/Redis……)
商业驱动
大数据存在的模式:
手握大数据,没有大数据思维。
没有大数据,有大数据思维。
既有大数据,又有大数据思维。
大数据的技术概念:
大数据技术概念:
单机:CPU Memory Disk
分布式并行计算/处理
数据采集:Flume Sqoop
数据处理/分析/挖掘 : Hadoop,Spark,Flink……
数据存储 : Hadoop
可视化
船的选择
廉价:
中高价值:
运输过程拆开
货物搬到船上: 数据采集 数据存储。
处理: 小于多少的石头扔了,精细化的筛选。
大数据在技术架构上带来的挑战
对现有数据库管理技术的挑战。
经典数据库技术并没有考虑数据的多类别。
实时性的技术挑战。
网络架构,数据中心,运维的挑战。
数据隐私。
数据源复杂多样。
挑战分析之如何对大数据进行存储和分析呢?
系统瓶颈: 存储容量,读写速度,计算效率。
Google大数据技术: MapReduce BigTable GFS。
Google只发表了技术论文,并没有开源代码
一个模仿Google大数据技术的开源实现来了
大数据典型应用:
count/sum/avg
group by/join
窗口分析函数
异常/欺诈检测
人工智能
报表
用户细分
指标监控
指标预警