大数据开发
是什么
所谓大数据开发在我的理解里,是一种针对大规模数据收集和存储,挖掘有效信息,以及数据可视化的手段。
为什么
一直以来,数据中就存在许多信息。古代军队可以通过灶台数量判断敌军的人数,建国以来,计划经济就围绕着资源,人口以及经济形势来做安排,但缺乏有效的数据判断,于是现在以来就有人思考能不能在大数据中做出有效判断,然后更好的管理这个国家。
企业需要大数据开发也是如此,流量时代带来了大量数据,数据之间往往有联系,制约等等的规律,发现规律可以给企业提供判断决策,还有数据的存储,调用,可视化等等也要有一个熟悉流程。
怎么办
目前企业中的大数据开发主要围绕编写应用程序和大数据处理系统开发两类进行,前者是采取Hadoop、Spark、Flink 进行开发,后者是对开源框架的扩展开发,数据中台的开发等。
需要掌握的技能
- 语言:Java 和 Scala(语言以这两种为主,需要重点掌握)
- Linux(需要对Linux有一定的理解)
- Hadoop(需理解底层,能看懂源码)
- Hive(会使用,能进行二次开发)
- Spark(能进行开发。对源码有了解)
- Kafka(会使用,理解底层原理)
- Flink(能进行开发。对源码有了解)
- HBase(理解底层原理)