大数据学习（二）

最新推荐文章于 2024-09-22 14:48:38 发布

西木风落

最新推荐文章于 2024-09-22 14:48:38 发布

阅读量441

点赞数

分类专栏：大数据学习文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenwiehuang/article/details/54647204

版权

大数据学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

大数据处理及时Hadoop

一、Hadoop简介

Hadoop是apache下的一个开源分布式计算平台，为用户提供了系统底层透明的分布式基础架构。Hadoop是Java语言开发，具有很好的跨平台特性，其核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce。

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且提供一个高可靠、高效、可伸缩的方式进行处理，具有的特点是：

高可靠性

高效性

高扩展性

高容错性

低成本

支持多语言

运行在Linux上

二、Hadoop的应用现状

1、大数据在企业中最主要的应用是：数据分析、数据实时查询和数据挖掘。

2、Hadoop的版本

Hadoop版本分为两代，第一代版本分别是0.20.x，0.21.x和0.22.x，其中0.20.x最终演化成1.0.x；第二代包含两个版本，分别是0.23.x和2.x，他们是完全不同于Hadoop1.0的，是一套全新的架构，均包含HDFS Fedreation和YARN两个系统，2.x还增加了NameNode HA 和Write-compatibility两大特性。YARN框架主要管理系统资源的，所以二代的Hadoop中MapReduce只是做数据处理的，资源调度交给了YARN。Hadoop的不同分支：

Apache Hadoop

Hortonworks

Cloudera

MapR

星环

三、Hadoop的项目结构

四、安装Hadoop

包括步骤：

创建Hadoop用户

SSH登录权限设置。因为NameNode需要启动集群中所有机器的Hadoop守护进程，这个过程通过SSH登录来实现。

安装Java环境。

下载Hadoop安装文件

Hadoop默认为非分布式模式，无需进行其他配置就可运行。而位分布式的Hadoop是分离Java进程来实现的。

hadoop fs 适用于任何不同的文件系统

hadoop dfs 只是用于HDFS文件系统

hdfs dfs 只是用于HDFS系统

五、hsdoop集群的部署和使用

hadoop集群中的节点：

NameNode:负责协调集群中的数据存储

DataNode：存储被拆分的数据块

JobTracker:协调数据计算任务

TaskTracker:负责执行由JobTracker指派的任务

SecondaryNameNode：帮助NameNode收集文件系统的运行状态信息。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。