积累思考-大数据工程师的工作内容

在很多招聘JD中,大数据工程师是一个IT岗位,它的工作内容有什么呢?

1. BI分析

写 SQL ,一般会细分为BI工程师

2. 搭建、维护大数据环境

有的公司没有专门的运维,需要开发人员兼职。比如CDH

3. 搭建数据仓库

数据仓库就是用来管理、存储数据的地方。它根据下游应用的需求将数据分类、聚合存储,并提供数据的接口。
这里的搭建不是指 Hive,Hive 严格说是搭建数仓的工具,数仓搭建一般会分为三层 ODS、DW、DM 层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源消耗,注意,减少资源开销是减少 内存 和 CPU 的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,提高公司的运营成本,还有这个建数仓也分为建离线和实时的

4. ETL

Extract-Transform-Load

{1} 数据采集

数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)

{2} 数据迁移

把数据从传统的数据库(Oracle、MySQL )、爬虫(一般以csv的形式)迁移到大数据集群中

{3} 信息提取

把应用需要的数据抽取到ADS层,一般叫特征宽表。

5. 数仓开发

{1} 离线数据处理

写 SQL 然后扔到 Hive或spark中跑

{2} 实时数据处理

这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理

6. 数据中台开发

数据中台和数据仓库的区别
中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据

7. 数据可视化

一般会把最终的可视化指标存到关系型数据库
web

8. 大数据平台开发

偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样。比如cloudera的CM、hue

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值