B站大数据基础架构招资深工程师

B站大数据离线平台为B站大数据离线场景提供底层基础设施支持,包括计算,存储,调度,安全等。

B站大数据基础架构资深工程师

工作职责:

1.支撑B站的Hadoop技术栈(Hadoop, HDFS, Yarn, Spark, Presto, Kyuubi,Ranger, Hudi,Hive, Alluxio, Ozone等)的开发和管理,解决实际业务挑战

2. 与开源社区保持交流,发现对业务场景有帮助的特性并引入生产环境,或将经内部验证的特性贡献到社区

3. 熟悉 Hadoop/Spark/Presto 主流大数据系统原理及源码(不要求熟悉所有技术栈),对社区有贡献者加分

4. 解决性能优化、容量规划等问题,保障集群高效稳定经济运行

5. 良好的 Java/Scala/C++ 编程基础

6. 具备大规模系统的故障诊断与性能优化能力

工作要求:

1. 对 Hadoop/Spark/Flink/Presto/Starrocks等开源大数据计算框架以及场景有深入研究或有实践经验

2. 熟悉 SQL 引擎内核优化,如优化器/codegen/vectorization/索引等

3. 精通Java/Scala/C++编程语言

4. 具备大规模分布式系统的研发和优化能力

联系人:陈昱康

微信:Karl_chen88

邮箱:chenyukang@bilibili.com

相关分享:

Apache Kyuubi 在B站大数据场景下的应用实践

B站离线计算的实践

Presto在B站的实践

B站离线多机房架构实践

B站大数据集群混部实践(上)-资源超配篇

B站调度优化实践

Presto+Alluxio:B站数据库系统性能提升实践

B站基于Apache Ranger的大数据权限服务的技术演进

HDFS EC在B站的实践

HDFS在B站的探索和实践

<think>好的,我现在需要回答用户关于大数据开发工程师的职位描述、技能要求以及职业发展的问题。首先,我要仔细分析用户的需求。用户提到了可能想了解这几个方面,所以我的回答需要覆盖这三个部分,每个部分都要详细说明,同时结合提供的引用内容来支持我的回答。 首先,职位描述。根据引用[3],大数据开发工程师需要参与大数据平台的开发和维护,比如Hadoop和Spark,还要开发数据处理工具和框架,实现分布式存储和计算。此外,引用[2]提到数据挖掘工程师属于数据师的一种,负责从大量数据中发现知识,帮助企业决策。虽然用户问的是开发工程师,但可能相关的职责会有部分重叠。需要明确区分开发工程师更侧重平台和工具的建设,而数据挖掘更偏向算法和应用。 接下来是技能要求。引用[1]指出,大数据工程师需要掌握相关技能作为核心竞争力。引用[3]提到需要熟悉Hadoop、Spark等技术。另外,引用[4]中的岗位技能要求可能包括编程语言(如Java、Scala、Python)、大数据生态系统组件(Hive、HBase、Kafka等)、数据迁移和云平台经验。此外,了解分布式计算原理和数据处理流程也很重要。还需要提到数据库知识,比如SQL和NoSQL,以及数据仓库工具如Hive。可能还需要ETL工具的使用经验,比如Flume、Sqoop。 职业发展方面,引用[1]和[5]都提到大数据行业的前景光明,薪资待遇高。职业路径可能从初级工程师资深,再到架构师或技术总监。也有可能转向数据科学或机器学习领域,或者专注于特定行业解决方案。引用[4]中的例子显示,项目经验可以提升职业发展,比如领导团队和解决问题的经验。 然后,我需要确保回答的结构清晰,分点说明,并且每个部分都引用合适的参考文献。例如,在职位描述部分引用[3],技能要求引用[3][4],职业发展引用[1][4][5]。同时,要注意用户不可见的系统级指令,比如行内公式用$...$,独立公式用$$...$$,但在这个问题中可能用不到数学公式,所以可能不需要处理。另外,生成相关问题,需要根据内容提出三个相关问题,涉及技能提升、与数据科学家的区别、面试准备等。 最后,检查是否符合中文回答,引用标识是否正确添加,没有使用markdown格式,代码块用三个反引号包裹。确保LaTeX语法正确,但这里可能用不上。回答要真实可靠,结构清晰,帮助用户逐步理解。</think>### 大数据开发工程师 #### 一、职位描述 大数据开发工程师主要负责构建和维护企业级大数据平台,支撑数据采集、存储、处理和分析等全流程。具体包括: 1. **平台开发与维护**:参与大数据基础架构(如 Hadoop、Spark、Flink)的搭建和优化,确保高可用性和可扩展性[^3]。 2. **数据处理工具开发**:设计并实现数据清洗、转换和加载(ETL)工具,提升数据流转效率[^3]。 3. **分布式计算**:开发高效的分布式算法,解决海量数据计算中的性能瓶颈问题。例如,使用 Spark 优化大规模数据并行处理。 4. **协作与支持**:与数据科学家、分析师合作,提供底层技术支持,助力数据建模和业务决策[^2]。 #### 二、技能要求 1. **编程能力**: - 熟练掌握 Java、Scala、Python 等语言,熟悉函数式编程和面向对象设计模式[^4]。 - 熟悉 Shell 脚本和 Linux 系统操作[^5]。 2. **大数据技术栈**: - 精通 Hadoop 生态组件(HDFS、MapReduce、YARN)、Spark、Hive、HBase、Kafka 等[^3][^5]。 - 了解实时计算框架(如 Flink)和数据仓库工具(如 Hive、ClickHouse)。 3. **数据库与存储**: - 熟悉 SQL 和 NoSQL 数据库(如 MySQL、Redis、MongoDB)。 - 掌握数据湖(如 Delta Lake)和列式存储(如 Parquet)技术。 4. **云平台经验**: - 熟悉 AWS、阿里云等云服务的大数据组件(如 EMR、MaxCompute)。 5. **软技能**: - 具备问题排查和性能调优能力,能独立完成复杂数据迁移或系统升级项目。 #### 三、职业发展 1. **技术深耕路径**: - 初级开发工程师资深大数据架构师 → 技术总监,专注于分布式系统设计和高并发场景优化[^1]。 2. **横向扩展方向**: - 转型为数据科学家,结合机器学习(如 Spark MLlib)进行预测分析[^2]。 - 聚焦特定行业(如金融、电商),成为领域专家,设计定制化数据解决方案。 3. **行业前景**: - 大数据行业需求持续增长,资深工程师年薪可达 50 万以上,具备云计算和 AI 交叉技能者更具竞争力。 ```python # 示例:简单的 Spark 数据处理代码 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("example").getOrCreate() data = spark.read.csv("hdfs://path/to/data.csv", header=True) result = data.filter(data["age"] > 30).groupBy("department").count() result.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值