Hadoop介绍
定位:Hadoop是Apache软件基金会旗下开源软件;
优点:免费 降低了数据分析的复杂性 支持多种应用(跨平台)
核心:HDFS+MapReduce
特点
高可靠性 :多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。
高效性:集成上千机器一起计算。
可扩展性 :可不断往集群中增加机器。
在hadoop未出现之前高性能计算企业主要是一些小型机(性能强,成本大)而hadoop的出现实现了低性能机构成集群(降低了成本,增加旧机器的重复利用性)
应用现状
常用企业当中的数据架构
一、访问层:对企业的数据进行大量分析、数据实时查询、数据挖掘
二、大数据层(Hadoop):
离线分析:
Hive:用于存储和处理大规模数据。它提供了类似SQL的查询语言(HiveQL)以便于分析和查询数据。
详见大佬编写文档
Pig:Pig包括用来描述数据