day01-大数据概述

day01-大数据概述

一、大数据定义

大数据(big data):无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

大数据的数据量:1PB~1EB <=> 1024TB~1024*1024TB

大数据技术的任务:解决海量数据存储计算问题

  • 海量数据存储
    • hadoop的HDFS
  • 海量数据计算
    • hadoop的MapReduce

二、大数据特点

大数据特点

三、大数据开发流程

  • 需求分析
    • 数据分析师,根据公司的业务,提出分析需求
  • 架构设计(没几年经验干不了这个)
    • 架构师完成对项目总体设计,形成设计文档
    • 技术架构
      • 选择哪些技术进行大数据开发
    • 分层架构
      • 大数据具体表的设计及开发内容设计
  • 环境搭建(我觉得这个比较人性化,省了不少配置环境的时间)
    • 大数据运维工程师
    • 负责搭建部署开发环境
  • 大数据开发(说的好听点叫程序员,说的不好听就是码农)
    • 根据设计好的文档进行代码实现
  • 大数据测试
    • 测试开发的代码是否正确
  • 上线部署
    • 部署开发好的代码
  • 数据展示(BI报表)
    • 对计算的结果进行可视化展示

四、大数据就业方向

  • 数据分析师
    • 提出数据分析需求
  • 架构师
    • 架构设计
    • 是公司的技术核心
  • 大数据运维工程师
    • 环境搭建
    • 上线部署
  • 大数据开发工程师
    • 数据的处理方向划分
      • 离线开发工程师
      • 实时开发工程师
    • 从使用技术方向划分
      • Flink开发工程师
        • flink在实时开发中使用 Spark开发工程师
      • 在离线开发中使用 ETL开发工程师
  • 大数据测试
    • hiveSQL
      • 测试sql代码
  • BI报表开发工程师
    • 数据展示,制作数据大屏

五、大数据技术方向

  • 数据采集
    • 采集各类数据,存储到大数据的数仓中
    • sqooq
    • kettle
    • flume
    • datax
  • 数据存储
    • Hadoop的HDFS
    • kafka 消息队列
    • hbase
    • 数据库 mysql、postgresql
    • ES 搜索引擎
  • 数据计算
    • hadoop的MapReduce
    • Spark
    • Flink
  • 数据查询工具
    • hive
    • presto
  • 计算任务的资源调度
    • hadoop的yarn
    • mesos
    • standalone
  • 计算任务的定时执行
    • 针对每天有新增数据需要每天定时执行代码
    • oozie
    • DS
  • 数据的展示
    • FineBI
    • superset
    • powerBI
    • pyearchs
  • 新增数据需要每天定时执行代码
    • oozie
    • DS
  • 数据的展示
    • FineBI
    • superset
    • powerBI
    • pyearchs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萌神想

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值