大数据通用处理平台
Spark/Flink/Hadoop
分布式存储
HDFS
资源调度
Yarn/Mesos
数据分析/数据仓库(SQL类)
Pig/Hive/kylin/Spark SQL/Spark DataFrame/Impala/Phoenix/ELK/ElasticSearch/Logstash/Kibana
消息队列
Kafka(纯日志类,大吞吐量)/RocketMQ/ZeroMQ/ActiveMQ/RabbitMQ
流式计算
Storm/JStorm
Spark Streaming
日志收集
Scribe/Flume
编程语言
Java/Python/R/Ruby
数据分析挖掘
MATLAB/SPSS/SAS
数据可视化
R/D3.js/ECharts/Excle
机器学习
聚类/时间序列/推荐系统/回归分析/文本挖掘/决策树/支持向量机/贝叶斯分类/神经网络
机器学习工具
Mahout/Spark Mlib/TensorFlow (Google 系)/Amazon Machine Learning/DMTK (微软分布式机器学习工具)
算法
数据结构:栈,队列,链表/散列表/二叉树,红黑树,B树/图
常用算法
排序:插入排序/桶排序/堆排序/快速排序/最大子数组/最长公共子序列/最小生成树/最短路径/矩阵的存储和运算
分布式一致性
paxos/raft/gossip
云计算
云服务:SaaS/PaaS/IaaS
Openstack/Docker
Hadoop 家族技能图谱
Hadoop/Zookeeper/Avro/Chukwa/Ambari/Whirr/Bigtop/HCatalog/Hue/HBase/Pig/SqoopCassandra/Hama/
Flume/Giraph/Oozie/Crunch/Hive/Mahout
Hive 技能图谱
Hive系统架构:MetaStore/Derby/MySQL
HDFS
/user/hive/warehouse
MapReduce
Hive配置文件
hive-env.sh/hive-site.xml/hive-log4j.properties
Hive命令行/HiveQL
软件集成
Zookeeper/Thrift/Ooize/HCatalog/AWS
协同过滤
基于用户协同过滤/基于物品协同过滤
相似度矩阵
欧氏距离/Pearson距离/余弦距离cosine/Spearman’s rank correlation coefficient/
Tanimoto coefficient/log-likelihood
近邻算法
按值取近邻/按比例取近邻
推荐算法
UserBasedRecommender/ItemBasedRecommender/SlopeOneRecommender/
SVDRecommender/KnnltemBasedRecommender/TreeClusteringRecommender
算法检验
全查率Recall/准查率Precision
数据模型
UserID,ltemID,PreferenceValue/UserID,ItemID
Hadoop集群部署
聚类
数据模型
DenseVector/RandomAccessSparseVector/SequentialAccessSpareVector
距离算法
欧式距离/欧式平方距离/马氏距离/余弦距离/Tanimoto距离/带权重距离
聚类算法
k-means/Canopy/Fuzzy k-means/Dirichlet/Topic moseling on LDA