大数据大数据,个个都在喊 但究竟什么是大数据开发,如何成为一个大数据开发工程师?加米谷大数据的这篇文章告诉你如何成为阿里巴巴也需要的大数据工程师。
大数据通用处理平台
1.Spark
2.Flink
3.Hadoop
分布式存储
HDFS
资源调度
Yarn
Mesos
机器学习工具
Mahout
1.Spark Mlib
2.TensorFlow (Google 系)
3.Amazon Machine Learning
4.DMTK (微软分布式机器学习工具)
数据分析/数据仓库(SQL类)
1.Pig
2.Hive
3.kylin
4.Spark SQL,
5.Spark DataFrame
6.Impala
7.Phoenix
8.ELK
8.1 ElasticSearch
8.2Logstash
8.3Kibana
消息队列
1.Kafka(纯日志类,大吞吐量)
2.RocketMQ
3.ZeroMQ
4.ActiveMQ
5.RabbitMQ
流式计算
-
Storm/JStorm
-
Spark Streaming
-
Flink
日志收集
Scribe
Flume
编程语言
-
Java
-
Python
-
R
-
Ruby
-
Scala
数据分析挖掘
MATLAB
SPSS
SAS
数据可视化
-
R
-
D3.js
-
ECharts
-
Excle
-
Python
机器学习
机器学习基础
-
聚类
-
时间序列
-
推荐系统
-
回归分析
-
文本挖掘
-
决策树
-
支持向量机
-
贝叶斯分类
-
神经网络
机器学习工具
-
Mahout
-
Spark Mlib
-
TensorFlow (Google 系)
-
Amazon Machine Learning
-
DMTK (微软分布式机器学习工具)
算法
一致性
-
paxos
-
raft
-
gossip
数据结构
-
栈,队列,链表
-
散列表
-
二叉树,红黑树,B树
-
图
常用算法
1.排序
插入排序
桶排序
堆排序
2.快速排序
3,最大子数组
4.最长公共子序列
5.最小生成树
希望能够帮助对大数据开发工程师有意向的同学发现一些可以借鉴的经验,学习大数据技术并不是需要多高的天赋但一定要努力才行