在目前已知企业中,大数据内部结构如下
平台组
- 负责框架搭建,安装
- 集群性能监控 例:如果某个集群运行过程中突然 挂掉,或者某台机器性能 内存不够用 。 那么怎么能将这些问题立刻发现 找到 并解决,这就是集群性能监控。
- 集群性能调优
- 那么以上三点的工作岗位,统称为 “ 大数据平台工程师 ”
数据仓库组
- ETL 工程师(数据清洗) 例:清洗数据主要包括 空值,重复数据,过期数据等等通过 kettle 或者其他一些技术手段 过滤掉。
- 数据分析 (数据仓库建模) 它是数据仓库 非常核心的一个岗位,也可以认为是 数据仓库的 架构师
- 以上两点 统称为 “ 大数据数仓工程师 ”
实时组
- 实时指标分析(性能调优) 例:双十一阿里可视化大屏幕 实时显示交易额
- 统称为 “ 大数据实时开发工程师 ”
数据挖掘组 : 比较高端,偏向人工智能,对计算要求较高
- 用户画像工程师 例: 对用户“ 打标签