Hadoop:是分布式系统的基础架构(分布式,集群,大数据平台)
hadoop包括:hdfs,mapreduce,yarn,common
hdfs :为海量数据提供分布式存储;
mapreduce:为海量数据提供分布式计算
yarn:为海量的数据提供分布式资源调度框架
common:用于完成底层通讯
主要工具介绍
hadoop:分布式系统的基础架构,可用于处理离线数据
pig:hadoop客户端(复杂逻辑)
hive:大数据的数据仓库,用于存储结构化的数据(结构化数据库:mysql,Oracle)
mysql:用于存储数据和元数据
sqoop:hadoop和rdms(关系型数据库)的导入导出工具,导入导出的是数据,管理的是元数据
flume:用于收集日志
kafka:用于实时传输
Cassandra:只有顺序读写,没有随机读写,满足高负荷的性能需求,no-sql,分布式的key-value型数据库
hbase :列式数据库
Hadoop不仅能处理结构化数据,还能处理非结构化数据(hdfs dfs -put)
欲买桂花同载酒,终不似少年游