职责&要求
岗位要求:
1、扎实的Java、Scala语言基础,对JVM运行机制有深入了解;
2、有hadoop 和spark实际开发经验。了解大数据组件的使用限制和应用场景,如hdfs,yarn,hbase,hive,flume,kafka,zk,ES,Storm, cloudera等
3、熟悉mysql、ElasticSearch、Redis等关系型或NoSQL数据库,了解应用场景和使用限制。有实际调优经验者更佳。
以下优先考虑:
1、熟悉并行计算或者分布式计算,熟悉Spark框架,熟练掌握RDD,SQL, Streaming, MLLIB编程;
2、有深入研究过Hadoop/Spark源码者优先;
3、深入理解HDFS分布式文件系统架构;熟练掌握Hadoop/Hive/HBASE的运维和调优方法;
4、熟悉linux常用命令,有实际HDP或apache版本的hadoop部署经验者优先;
5、掌握或使用过Storm、Spark、flume、kafka等工具;
6、1-3年以上大数据相关工作经验,最好参与并成功部署过1个日均TB级的集群项目。
7、熟练掌握python
职位描述:
1、根据业务部门的需求,负责分布式数据采集、清洗等ETL的开发工作,并提供数据采集及质量汇总报告;
2、负责海量业务数据进行分布式计算的开发工作,基于业务需求进行特征处理及标签化过程开发;