python 到大数据开发工程师_如何成为一个大数据开发工程师？

最新推荐文章于 2023-05-11 18:59:32 发布

weixin_39989033

最新推荐文章于 2023-05-11 18:59:32 发布

阅读量87

点赞数

文章标签： python 到大数据开发工程师

我怀疑上面的回答，很多人都没实地的做过大数据开发工程师。

大数据开发听着挺高大上的，其实很多公司就是一个搞数据分析的，这也是大数据开发。平时工作写sql，使用Hive做离线数据分析，最多让你写写UDF、UDAF、UDTF函数而已，很多人编程基础都非常差。

现在很多人大数据开发岗都是偏向sql开发，也就是hive开发。只要掌握ETL数据同步工具，比如kettle工具、sqoop工具能清洗数据就成，连ETL都不用自己写。我以前很多同事就是干这些的，更偏向传统写HQL，解决问题。

但是想有一个好的发展方向，这些东西多少都是必须要懂、要会的。我用我工作中和面试时，面试官最常问的总结一下，大数据要掌握哪些东西?

在我的工作经历中，大数据我什么都做过。从最简单的离线ETL数据开发、到Hadoop的mapreduce开发、到数据仓库开发、到天天写Sql开发(写了半年HQL没摸过代码)、到spark开发、到sparkstreaming实时流处理开发、到flink开发，不同工作阶段做的事情也不一样。当然做的越多对大数据这行理解也深一些。

大数据开发掌握哪些技能？

一、Java部分，掌握Javase部分是必须的。

Javaee部分了解就行(工作四年没一次做过Javaee方面的工作，刚工作时想做后端开发，还被主管diss，你做好大数据的工作就好了，后端有java工程师做，少年要做好本职工作)。

二、Hadoop生态。

2.1、Hadoop生态可就太多了，先入门了解Hadoop集群的这套东西，有能力的自己找教程安装一遍集群，这样你才能更好的了解一些底层原理的东西。当然，你也可以选择不了解这些。但是Zookeeper、HDFS、Yarn这些原理你一定要深入了解一些。尽管工作中从来用不到这些玩意，但是面试经常问啊。

2.2、mapreduce。说实话我也就在2017年做ETL项目的时候用过一次，之后就再也没用过了。我感觉写mapreduce很复杂，但是大部分代码都是框架，在框架里写业务逻辑就行了。但是mapreduce的shuffle过程一定要了熟于心，不为别的，因为面试常问。

2.3、flume日志归集系统和oozie任务流调度系统。这个也不常用，flume收集日志用经常跟kafka结合做实时日志处理用，会用flume收集日志，随便学学会用就行。oozie也是在做ETL项目时用到过一次(后面都是借助各种云开发，人家自带各种任务调度系统，在他们云上应用层开发配置)。

三、Spark

Spark做离线开发，基于内存速度快。可以用java开发、可以用scala开发、可以用python开发。选择一种语言开发就成。我一般用scala开发，使用java感觉太繁琐了。

SparkSql，使用代码写Sql，也可以在代码里写Sql，跟平时写Sql一样，很有意思的玩法，你会喜欢SparkSql的，比单纯写Sql有意思多了。

SparkStreaming实时处理，这些需要结合Kafka使用，就是做实时数据处理用的。所以我建议Spark一定要认真学习。

当时面网易的时候，他们问过spark内核底层的开发，说实话我根本没了解过，你要是有精力可以深入研究研究。

四、数据库、存储系统(学习重点)

数据库系统，这个必须必须要会，大数据基础就是这些。包括Msyql、Oracle、Postgresql、Hive、Hbase、Redis、ElasticSearch。我把这些放在一起说，因为大数据开发最常跟这些打交道。

Msyql、Oracle、Postgresql传统数据库，你会写Sql就成，因为对后台开发来说，数据库操作基本都是必懂的。

Hive离线分析型数据库，一般用来做数据分析使用，工作中写HQL，一种类Sql语句(大同小异)，但经常会写UDF函数，处理一些数据。

Hbase列式存储数据库。主要用来做海量数据存储查询用的，海量数据达到TB、PB级别的数据。大数据量的快速查询。Rowkey的设计呀，预分region呀，热点问题呀等都是重点考察对象。一定要搞明白了Hbase。

Redis内存缓存数据库。了解Redis的机制，主从、哨兵模式、缓存穿透、雪崩等等，掌握Redis是很有必要的，网上一搜一堆资料，很容易学习。

ElasticSearch全文检索系统。快速检索文本内容，ES大数据最常用的存储系统之一，必会。

我工作四年最常用的就是以上这些数据库和存储系统，其他的没怎么用过和接触过。

五、其他必备技能

1、Linux操作系统，命令最好自己跟着敲一遍，有些常用的命令一定要会。

2、Kettle或Sqoop工具，这个工作中学习使用就行了，很多公司并不用这些工具。

3、Flink这个有能力，学习学习是极好的(我是工作需要才开始自学的)。

4、Python目前正在自学中，当然你可以选择不学。

写在最后。

像数据仓库开发，数据倾斜问题、Spark内存的优化等这些都是建立在你会了上面的基础上才能继续研究学习的。

比如数据仓库。数据仓库建模(星型模型、雪花模型、维表、事实表等选择设计，数据仓库分层问题等等)、数据仓库的设计规范，跟传统数据库规范一样。从ODS源数据层、到DWD数据明细层、到DWS数据汇总层、到ADS数据应用层、到DIM数据维度层等等，这些都是根据公司业务来设计的，不同公司数据仓库建模也是不一样的。

想要了解更多的可以关注我公众号。

weixin_39989033

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫