day01-大数据概述
一、大数据定义
大数据(big data):无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
大数据的数据量:1PB~1EB <=> 1024TB~1024*1024TB
大数据技术的任务:解决海量数据存储和计算问题
- 海量数据存储
- hadoop的HDFS
- 海量数据计算
- hadoop的MapReduce
二、大数据特点
三、大数据开发流程
- 需求分析
- 数据分析师,根据公司的业务,提出分析需求
- 架构设计(没几年经验干不了这个)
- 架构师完成对项目总体设计,形成设计文档
- 技术架构
- 选择哪些技术进行大数据开发
- 分层架构
- 大数据具体表的设计及开发内容设计
- 环境搭建(我觉得这个比较人性化,省了不少配置环境的时间)
- 大数据运维工程师
- 负责搭建部署开发环境
- 大数据开发(说的好听点叫程序员,说的不好听就是码农)
- 根据设计好的文档进行代码实现
- 大数据测试
- 测试开发的代码是否正确
- 上线部署
- 部署开发好的代码
- 数据展示(BI报表)
- 对计算的结果进行可视化展示
四、大数据就业方向
- 数据分析师
- 提出数据分析需求
- 架构师
- 架构设计
- 是公司的技术核心
- 大数据运维工程师
- 环境搭建
- 上线部署
- 大数据开发工程师
- 数据的处理方向划分
- 离线开发工程师
- 实时开发工程师
- 从使用技术方向划分
- Flink开发工程师
- flink在实时开发中使用 Spark开发工程师
- 在离线开发中使用 ETL开发工程师
- 大数据测试
- hiveSQL
- 测试sql代码
- BI报表开发工程师
- 数据展示,制作数据大屏
五、大数据技术方向
- 数据采集
- 采集各类数据,存储到大数据的数仓中
sqooq
- kettle
- flume
- datax
- 数据存储
Hadoop的HDFS
- kafka 消息队列
- hbase
- 数据库 mysql、postgresql
- ES 搜索引擎
- 数据计算
- hadoop的
MapReduce
- Spark
- Flink
- hadoop的
- 数据查询工具
hive
- presto
- 计算任务的资源调度
- hadoop的
yarn
- mesos
- standalone
- hadoop的
- 计算任务的定时执行
- 针对每天有新增数据需要每天定时执行代码
- oozie
- DS
- 数据的展示
FineBI
- superset
- powerBI
- pyearchs
- 新增数据需要每天定时执行代码
- oozie
- DS
- 数据的展示
FineBI
- superset
- powerBI
- pyearchs