博客
HDFS、Mapreduce、HBase、Hive、HUE、Pig、Sqoop、Flume、Zookeeper
网站
Hadoop
HDFS+MapReduce+Yarn 。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算条件。
HDFS的shell操作(常用命令和参数)
HDFS的Java应用开发(数据采集、存储、文件)
MapReduce编程(规范、运行、调试)
MapReduce计算程序(排序、分区、优化)
围绕Hadoop数据库开发的一系列重要工具,比如HBase、Hive、Flume等,主要是训练数据的清洗、处理、分析的技能。
HBase数据操作(读、写、更新)、基本架构
Hive数据存储与计算(表搭建、分区、查询、函数)
Flume&Sqoop采集、导出系统实现
Pig进行数据处理与数据分析
Spark
HBase
JavaAPI操作
Hive
查询、函数、视图
Storm
其他
Sqoop&Flume(数据采集),Pig、HUE、HA。
HUE可视化管理(与HBase、Hive集成)
HA集群:Zookeeper搭建高可用的集群环境
Community
数据挖掘
公开数据集
CRAWDAD
UCI Machine Learning Repository
Stanford Large Network Dataset Collection
SIGKDD - KDD Cup (这个是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事)
NYC Open Data
Lending Club Statistics | LendingClub
Citi Bike System Data | Citi Bike NYC
Stack Exchange Data Explorer
阿里天池大赛
Kaggle有数据,有比赛,还有奖金
路线
初级
- 大数据需要学什么?(一)语言篇
- 大数据需要学什么?(二)技术篇
- 计算引擎的前世今生
- 详解大数据平台架构
- 我该建数仓、大数据平台还是数据中台?看完脑子终于清醒了
- 阿里云数仓总架构师:企业大数据平台仓库架构建设思路
- 独家剖解浙江移动大数据平台有多牛!
星环科技致力于打造企业级大数据基础软件,围绕数据全生命周期为企业提供基础软件及支持,构建明日数据世界。