如果你毕业了, 去个什么公司,应聘个“大数据开发工程师”什么的,我们来看看职位要求是什么:
岗位职责:
1、负责数据分析、监控、安全、风控等平台设计与开发
2、责基于spark平台的用户行为分析、实时业务数据的开发
3、采用统计分析、数据建模、数据挖掘等方法,提供有价值的数据、模型、算法支持
岗位要求:
1、大学本科学历,3年及以上相关工作经验
2、熟悉java/scala的一种开发语言
3、熟悉spark/hadoop生态系统
4、熟悉shell或python脚本
5、有数据挖掘、机器学习方面的项目经验者优先
6、熟悉Redis、MongoDB、HBase等NOSQL数据库
7、良好的沟通与技术学习能力,对开源技术充满热情
看到没?
大数据开发一共几个流程,大概概括起来有:
收集、清洗、数仓(建模)、OLAP、可视化
这里边:
收集一般的技术是:Kafka、Flume、高性能HTTP开发(可能)、Avro协议(可能)、Thrift协议(可能),取决于所在公司的技术栈。
清洗:Spark、HiveSQL/SparkSQL、MapReduce(已经过时)
存储:HDFS、Alluxio(分布式内存存储)、Redis(高速缓存)、mongoDB(文档型数据库)...
流式计算:Spark Streaming / Storm
数仓建模:Hive、Mongo