Hadoop(1)

ESXi

ESXi专为运行虚拟机,最大限度降低配置要求和简化部署而设计。只需几分钟时间,客户便可完成从安装到运行虚拟机的全过程,特别是在下载并安装预配置虚拟设备的时候。在VMware Virtual Appliance Marketplace 上有800多款为VMware hypervisor 创建的虚拟设备,如今,ESXi已经实现了与Virtual Appliance Marketplace的直接整合,使用户能够即刻下载并运行虚拟设备。这为即插即用型软件的交付与安装提供了一种全新和极其简化的方式。
ESXi本身直接在硬件上安装实现虚拟化,不需要以操作系统为基础。

Cygwin

有的人使用VMware搭建linux虚拟机;
也有的人直接在PC上安装linux;
有的人使用cygwin这个windows下的unix仿真环境
cygwin是一个在windows平台上运行的unix模拟环境,是一个感觉用起来像是linux环境的工具集。也就是说,在cygwin上你可以执行诸多linux命令,不仅如此,也可以执行windows DOS下的命令程序。

去IOE

去IOE,
其中的I指的是IBM的小型机,O指的是Oracle的数据库,E指的是EMC的高端存储。再谈一谈这三个产品各自的优势,
IBM的产品,在我国的金融行业中占据着绝对的优势,
Oracle的数据库,在电信、证券行业占着相当大的份额,
EMC的存储,在银行、电信、证券等垄断行业,
都占据着较大的份额,要知道,EMC是全球最大的存储公司。

Google-搜索算法(倒排索引)

场景是:给定几个关键词,找出包含关键词的文档
倒排索引一般表示为一个关键词,然后是它的频度(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息),它相当于为互联网上几千亿页网页做了一个索引,好比一本书的目录、标签一般。读者想看哪一个主题相关的章节,直接根据目录即可找到相关的页面。不必再从书的第一页到最后一页,一页一页的查找。
参考博客:参考博客链接

Google-PageRank计算问题

  • 通过各个网页之间的连接关系
  • 通过q=G q使 q 趋于收敛,不断地更新计算得到最终的各页权重。
    在这里插入图片描述
  • 通过不断地 map-reduce 分解庞大的矩阵运算。
    在这里插入图片描述

Hadoop的架构

在这里插入图片描述

1、Namenode:

1)HDFS的守护程序
2)纪录文件是如何分割成数据块的以及这些数据块被存储到哪些节点上
3)对内存和I/O进行集中管理
4)namenode 是个单点,发生故障将使集群崩溃

2、Secondary Namenode:

1)监控HDFS状态的辅助后台程序
2)每个集群都有一个Secondary Namenode
3)与NameNode进行通讯,定期保存HDFS元数据快照
4)当NameNode故障可以作为备用NameNode使用(Namenode的备份)

3、DataNode:

1)每台从服务器都运行一个
2)负责把HDFS数据块读写到本地文件系统

4、JobTracker:

1)用于处理作业(用户提交代码)的后台程序
2)决定有哪些文件参与处理,然后切割task并分配节点
3)监控task,重启失败的task(在不同的节点)
4)每个集群只有唯一一个JobTracker,位于Master节点

5、TaskTracker:

1)位于slave节点上,与datanode结合(代码与数据一起的原则)
2)管理各自节点上的task(由jobtracker分配)
3)每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务
4)与jobtracker交互

6、Master与Slave

1)Master:Namenode、Secondary Namenode、Jobtracker。浏览器(用于观看 管理界面),其它Hadoop工具
2)Slave:Tasktracker、Datanode
3)Master不是唯一的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值