1、hadoop是一个做可靠的、可扩展的、分布式计算的开源软件项目。擅长日志分析,如使用HiveQL进行数据分析。
大数据:聚合。
5、YARN:Yet Another Resource Negotiator,管理的是硬件资源(CPU、内存、硬盘)
2、pig可以做高级数据处理
3、去IOE化。I:IBM。O:Oralce。E:EMC。
4、大数据与云计算的差异
云计算:虚拟化,如VMware。将硬件资源(CPU、内存、硬盘)整合,形成硬件资源池。在资源池上分配(切分)资源。大数据:聚合。
5、YARN:Yet Another Resource Negotiator,管理的是硬件资源(CPU、内存、硬盘)
6、HBase来源于Google的BigTable。基于RowKey的检索,RowKey支持索引。是OLTP的。