Hadoop--初识Hadoop(一)

一、什么是Hadoop

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

设计原则:移动计算,而不是移动数据, 即计算向数据移动。

二、hadoop特点

  • 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
  • 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
  • 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
  • 可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

三、有哪些module组成?

  • Hadoop Common: The common utilities that support the other Hadoop modules.
  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
  • Hadoop YARN: A framework for job scheduling and cluster resource management.
  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
  • Hadoop Ozone: An object store for Hadoop.
  • Hadoop Submarine: A machine learning engine for Hadoop.

其中HDFS,YARN,MapReduce被称为hadoop的三大组件,每个组件在逻辑上都是独立的,都可不依赖与另外其他两个单独运行。

四、Hadoop 能用来做什么?

设想有如下场景
如果需要在1PB 的数据中找出相同的关键词,如果采用常规的读取查找操作,显然不可能完成,即使能够实现,也要耗时数天甚至更久,有了hadoop以后就可以利用分布式计算原理,将这一过程耗时缩减至几小时甚至更短,Hadoop 要做的是:

  1. 首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value。
  2. 然后进行正则匹配, 匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。

五、 Hadoop的使用场景

  • 日志处理
  • 用户细分特征建模
  • 个性化广告推荐
  • 智能仪器推荐
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值