大数据基础第二章总结

一、Hadoop概述

(1)简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础框架。被公认为行业大数据标准开发软件,在分布式环境下提供了海量数据的处理能力

(2)Hadoop核心

Hadoop分布式文件系统(HDFS)和MapReduce

(3)Hadoop特性

  • 高可靠性:采用冗余数据存储方式,一个副本发生故障其他副本也可正常对外提供服务。
  • 高效性:高效地处理PB级数据
  • 高可扩展性
  • 高容错性:采用冗余数据存储方式,能够自动将失败的任务进行重新分配
  • 成本低
  • 运行在Linux操作系统上
  • 支持多种编程语言

(4)Hadoop的版本

f462fa28864f4c659a48e72959fc8190.jpg

 88be455416e549408236a5bccb964d56.jpg

 2.Hadoop生态系统

0ba28719a3fe4f869b29259d3a83b0ea.jpg

b5ed8256213e4a039e5fcfad161e5b2f.jpg

  • HDFS分布式文件系统
  • HBase:是一个提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库
  • MapReduce:是一种编程模型,用于大规模数据集的并行运算
  • Hive:是一种基于Hadoop到的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储查询语言——HiveQL
  • Pig:一种数据流语言和运行环境,适用于使用Hadoop和MapReduce平台来查询大型半结构化数据集
  • ZooKeeper:是高效和可靠的协同工作系统,提供分布式锁,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。

3.Hadoop的安装

  1. 创建Hadoop用户
  2. 更新apt和安装Vim编译器
  3. 安装SSH和配置SSH无密码登录
  4. 安装Java环境
  5. 安装单机Hadoop
  6. Hadoop伪分布式安装
  • 9
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值