一:大数据软件框架结构概括
1.Hadoop
a.hadoop内核
b.mapreduce:为大数据提供计算(批处理计算框架)
c.hdfs:分布式文件系统,为大数据提供存储。
d.Hadoop yarn:集群资源管理器,负责集群的资源管理
e.HBase:nosql数据库
f.数据仓库工具Hive
g.pig工作流语言
h.机器学习算法库mahout
i:zookeeper:是一个集中式服务,主要负责分布式任务调度,用来完成配置管理,名字服务,提供分布式锁以及集群管理等工作(配置管理,名字服务,分布式锁,集群管理);
j:spark-内存计算框架(实时/内存/流式计算框架)
k:数据采集flume和kafka
1.1:flume数据采集系统,具有分布式,高可靠,高容错,易于定制和扩展的特 点
l:ambari:管理工具–可以快捷的监控,部署,管理hadoop集群,
二:大数据的数据采集和导入
数据平台整体架构:数据采集-存储-管理-处理-表现(可视化,报表及监控)