大数据处理框架
Spark(Spark学习脑图)
- RDD
- Spark SQL
- Spark Streaming
- MLLib
Hadoop
- HDFS (分布式文件系统)
- Mapreduce(计算框架)
- Yarn(资源管理平台)
- Pig(piglatin 语句到 mapreduce 的映射)
- Hive(数据仓库,提供 SQL)
- Mahout(机器学习算法的 mapreduce 实现库)
Kafka
-
分布式消息队列(Message Queue)
-
高吞吐、可扩展
-
Kafka通过Zookeeper管理集群配置,选举leader
-
LinkedIn开发,开发语言Scala
-
Kafka Monitor:http://www.oschina.net/p/kafka-monitor(LinkedIn在2016年4月开源了其测试框架)
Storm(实时计算简介)
-
Twitter已经用Heron替换了Storm
ELK
-
ElasticSearch
-
Logstash
-
Kibana
数据库
-
SQL
-
MySQL
-
MongoDB (文档型)
-
Cassandra
-
Redis (KV型)
-
SQLite
-
bsddb
-
HBase
-
Neo4j (图型)
编程语言
-
Python
-
R
-
Ruby
数据分析挖掘
-
MATLAB
-
SPSS
-
SAS
数据可视化
-
R
-
D3.js
-
ECharts
-
Excle
人工智能
-
聚类
-
时间序列
-
推荐系统
-
回归分析
-
文本挖掘
-
决策树
-
支持向量机
-
贝叶斯分类
-
神经网络
算法
-
一致性
-
paxos
-
raft
-
gossip
-
-
数据结构
-
栈,队列,链表
-
散列表
-
二叉树,红黑树,B树
-
图
-
-
常用算法
-
排序(插入排序、桶排序、堆排序、快速排序)
-
最大子数组
-
最长公共子序列
-
最小生成树
-
最短路径
-
矩阵的存储和运算
-
云计算
-
云服务(SaaS、PaaS、IaaS)
-
Openstack
-
Docker
refer:
1、大数据技能图谱(在此基础上有所补充)