hadoop入门四（基础知识入门）

最新推荐文章于 2024-05-01 17:24:41 发布

csdn-panpan

最新推荐文章于 2024-05-01 17:24:41 发布

阅读量4k

点赞数 2

本文链接：https://blog.csdn.net/m0_37639542/article/details/78236668

版权

Hadoop学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

Hadoop的诞生

这里写图片描述
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop[3] 最初只与网页索引有关，迅速发展成为分析大数据的领先平台。
Nutch(JavaEE)
Lucene 现在是搜索
Spyder 爬虫

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。

Hadoop定义：

是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
Hadoop 还是可伸缩的，能够处理 PB 级数据。
此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

主要有以下几个优点：

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

hadoop大数据处理的意义

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。
这里写图片描述

这里写图片描述

MySQL Oracle 都是关系型数据库
但是 Hbase 是非关系型数据库
数据家把表叫做关系，
数据库是程序员开发的

非关系型数据太慢

Oracle MySQL sqlserver

非关系型数据库 nosql(Not only sql)

这里写图片描述

Hive:
cassandra的教程

这里写图片描述

ognl:

纯sql:说的是stop following me,you fucking freaks!

这里写图片描述

Hadoop有自己的结构，是集群部署的，所有有很多节点，master主服务器是一台机器，slave是另一台工具.运行在Linux系统上面。
nameNode :最大的头，挂掉则其他全挂是进程不是线程多个线程跑在一个进程
secondaryNameNode:打杂的可有可无
TobTracker:tracker是跟踪就是秘书干活的
有人要保存数据了往哪保存呢通知TaskTracker

slave节点：
TaskTracker:任务负责交互
DateNode:数据节点

这里写图片描述

假如洗牌1000张，不能把3000亿张牌都放在内存，我一个人洗不了那么多排，那么分下去就好了。

重点

这里写图片描述

面试

这里写图片描述

配置hadoop:

hadoop-env.sh hadoop的运行配置 包装配置的jdk
core-site.xml  配置hadoop的namenode节点的名称 监听的端口号
hdfs-site.xml  配置文件的存储目录 端口 临时的目录
mapred-site.xml 计算

首先的格式化namenode 没有目录就创建目录
jps:查看java有几个进程
logging to 指的是日志写到什么地方

启动的hadoop的命令：

start-all.sh
hadoop-daemon.sh start datanode/jobtracker/tasktracker

在tmp下面保存着每一个进程的进程号

我默认情况下看不到关闭守护进程 safe model

hadoop dfsadmin -safemode leave

使用dfs创建的文件是找不到的不是以文件名字文件
要通过hadoop的命令来查看它存的是二进制都放在快里面
目的：为了集群啊

hadoop fs 查看和dfs的相关命令

首先我们来看一下关于hadoop的文件系统。

hadoop  jar jar包名字 //查看包的信息

简单命令行配置Ip

ifconfig eth1 192.168.1.xxxx netmask 255.255.255.0

hadoop namenode //单独启动一个节点

hadoop fs -ls //查看hdfs文件

csdn-panpan

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop入门四（基础知识入门）

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算
复制链接

扫一扫