关于一直挺热的hadoop,今天研究了一下,觉得大概是这样的:
- hadoop的数据存储是依靠HDFS的(数据直接存在文件里),相当于咱们普通系统里的oracle,区别就在于他有自己独特的存储结构(NameNode、DataNode);
- Hbase,也就是nosql,是可以构建于HDFS之上的,也就是说可以把HDFS中的数据用sql的方式玩;
- pig和hive是两种用于查询分析的东西,pig采用的是一种独特的语言,hive采用的是类似sql的语言,这两个东西与hbase的区别就在于,这两个东西可以生成mapreduce的作业;
- mahout这个东西,就是类似淘宝商品推荐用的;
- mapreduce,对输入进来要分析的数据(数据有可能来源于hdfs、普通数据库、txt文件等),map对这些数据进行分析,reduce输出结果;
- 其他的可以暂时不研究。
具体回头有时间搭建个实例再深入了解一下。