hadoop入门四(基础知识入门)

Hadoop的诞生

这里写图片描述
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop[3] 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
Nutch(JavaEE)
Lucene 现在是搜索
Spyder 爬虫

Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。

Hadoop定义:

是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

  • Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
  • Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
  • Hadoop 还是可伸缩的,能够处理 PB 级数据。
    此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
  • Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

主要有以下几个优点:

  • 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
  • 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
    高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
    Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

hadoop大数据处理的意义

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
这里写图片描述

这里写图片描述

这里写图片描述

MySQL Oracle 都是关系型数据库
但是 Hbase 是非关系型数据库
数据家把表叫做关系,
数据库是程序员开发的

非关系型数据太慢

Oracle MySQL sqlserver

非关系型数据库 nosql(Not only sql)

这里写图片描述

Hive:
cassandra的教程

这里写图片描述

ognl:

纯sql:说的是stop following me,you fucking freaks!

这里写图片描述

这里写图片描述

Hadoop有自己的结构,是集群部署的,所有有很多节点,master主服务器是一台机器,slave是另一台工具.运行在Linux系统上面。
nameNode :最大的头,挂掉则其他全挂 是进程 不是线程 多个线程跑在一个进程
secondaryNameNode:打杂的 可有可无
TobTracker:tracker是跟踪 就是秘书 干活的
有人要保存数据了 往哪保存呢 通知TaskTracker

slave节点:
TaskTracker:任务 负责交互
DateNode:数据节点

这里写图片描述

假如洗牌1000张,不能把3000亿张牌都放在内存,我一个人洗不了那么多排,那么分下去就好了。

重点

这里写图片描述

面试

这里写图片描述

配置hadoop:

hadoop-env.sh hadoop的运行配置 包装配置的jdk
core-site.xml  配置hadoop的namenode节点的名称 监听的端口号
hdfs-site.xml  配置文件的存储目录 端口 临时的目录
mapred-site.xml 计算

首先的格式化namenode 没有目录就创建目录
jps:查看java有几个进程
logging to 指的是日志写到什么地方

启动的hadoop的命令:

start-all.sh
hadoop-daemon.sh start datanode/jobtracker/tasktracker

在tmp下面 保存着每一个进程的进程号

我默认情况下看不到 关闭守护进程 safe model

hadoop dfsadmin -safemode leave

使用dfs创建的文件 是找不到的不是以文件名字文件
要通过hadoop的命令 来查看 它存的是二进制 都放在快里面
目的:为了集群啊

hadoop fs 查看和dfs的相关命令

首先 我们来看一下关于hadoop的文件系统。

hadoop  jar jar包名字 //查看包的信息

简单命令行配置Ip

ifconfig eth1 192.168.1.xxxx netmask 255.255.255.0
hadoop namenode //单独启动一个节点
hadoop fs -ls //查看hdfs文件 
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值