day01-大数据概述

最新推荐文章于 2024-10-10 19:45:00 发布

萌神想

最新推荐文章于 2024-10-10 19:45:00 发布

阅读量1.2k

点赞数 24

文章标签：大数据单例模式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sxwwudi/article/details/142149035

版权

day01-大数据概述

一、大数据定义

大数据（big data）：无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

大数据的数据量：1PB~1EB <=> 1024TB~1024*1024TB

大数据技术的任务：解决海量数据存储和计算问题

海量数据存储
- hadoop的HDFS
海量数据计算
- hadoop的MapReduce

二、大数据特点

大数据特点

三、大数据开发流程

需求分析
数据分析师，根据公司的业务，提出分析需求

架构设计（没几年经验干不了这个）
架构师完成对项目总体设计，形成设计文档
技术架构
选择哪些技术进行大数据开发

分层架构
大数据具体表的设计及开发内容设计

环境搭建（我觉得这个比较人性化，省了不少配置环境的时间）
大数据运维工程师
负责搭建部署开发环境

大数据开发（说的好听点叫程序员，说的不好听就是码农）
根据设计好的文档进行代码实现

大数据测试
测试开发的代码是否正确

上线部署
部署开发好的代码

数据展示（BI报表）
对计算的结果进行可视化展示

四、大数据就业方向

数据分析师
提出数据分析需求

架构师
架构设计
是公司的技术核心

大数据运维工程师
环境搭建
上线部署

大数据开发工程师
数据的处理方向划分
离线开发工程师
实时开发工程师

从使用技术方向划分
Flink开发工程师
flink在实时开发中使用 Spark开发工程师

在离线开发中使用 ETL开发工程师

大数据测试
hiveSQL
测试sql代码

BI报表开发工程师
数据展示，制作数据大屏

五、大数据技术方向

数据采集
- 采集各类数据，存储到大数据的数仓中
- sqooq
- kettle
- flume
- datax
数据存储
- Hadoop的HDFS
- kafka 消息队列
- hbase
- 数据库 mysql、postgresql
- ES 搜索引擎
数据计算
- hadoop的MapReduce
- Spark
- Flink
数据查询工具
- hive
- presto
计算任务的资源调度
- hadoop的yarn
- mesos
- standalone
计算任务的定时执行
- 针对每天有新增数据需要每天定时执行代码
- oozie
- DS
数据的展示
- FineBI
- superset
- powerBI
- pyearchs
新增数据需要每天定时执行代码
- oozie
- DS
数据的展示
- FineBI
- superset
- powerBI
- pyearchs

关注

24
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

萌神想 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。