大数据技术原理与应用——第二章

最新推荐文章于 2024-09-22 02:06:56 发布

wakeup42

最新推荐文章于 2024-09-22 02:06:56 发布

阅读量654

点赞数

分类专栏： hadoop 文章标签：大数据 hadoop hive

本文链接：https://blog.csdn.net/wake_up_42/article/details/126935854

版权

12 篇文章 0 订阅

订阅专栏

Hadoop简介

Hadoop基于Java开发，核心是Hadoop分布式文件系统（HDFS）、MapReduce。
特性：
1. 高可靠性
2. 高效性
3. 高可扩展性
4. 高容错性
5. 成本低
6. 运行再Linux操作系统上
7. 支持多种编程语言

名称	作用
HDFS	两大核心之一、处理超大数据、流式处理、可运行在廉价商用服务器上
HBase	提供高可靠性、高性能、可伸缩、实时读写、分布式的数据库
MapReduce	编程模型，用于大规模数据并行计算，抽象为两个函数，“分而治之”
Hive	数据仓库工具、HiveQL
Pig	一种数据流语言和运行环境
Mahout	一个开源项目、提供机器学习领域的算法
Flume	高可用、高可靠、分布式的海量日志采集、聚合和传输的系统
ZooKeeper	高效和可协同工作的工作系统，提供分布式锁之类的基本服务
Sqoop	用来在Hadoop与关系数据库间交换数据，Java数据库连接jdbc与数据库交互
Ambari	基于web的工具，支持Hadoop集群的安装、部署、配置和管理