Hadoop体系不可错过的五大助手

HDFS和MapReduce只是打造Hadoop平台最基本的核心套件,在Apache基金会的网站中还有其他的相关开源套件,共同组成了一个hadoop体系(Hadoop Ecosystem)。

  通过这些相关项目的延伸,开发人员就算不懂Java,也可以用特定Script语言来写Hadoop上的MapReduce程序,甚至可以用SQL语法来查询HDFS上的数据。这些周边项目可说是大幅强化Hadoop功能的软件军火库,想要善用Hadoop的开发人员不可错过。其中重要的周边项目包括Hbase、Hive 、ZooKeeper、Pig和Mahout.

  hbase 能容纳PB数据量的分布式数据库  HBase是专门用于Hadoop文件系统上的数据库系统,采取Column-Oriented 数据库设计,不同于传统的关系数据库,例如没有数据表、Schema数据架构等功能,而是采用Key-Value形式的数据架构,每笔数据都有一个Key值对应到一个Value值,再通过多维度的对应关系来建立类似表格效果的数据架构。如此就能采取分布式储存方式,可以扩展到数千台服务器,应对PB级的数据处理。

  hive 可用SQL语法存取Hadoop数据  Hive是部署在HDFS上的一套分布式数据存储系统,可让用户以惯用的SQL语法,来存取Hadoop文件中的大型数据集,例如可以使用Join、Group by、Order by等,而这个语法称为Hive QL.不过,Hive QL和SQL并非完全相同,例如Hive就不支持Store Procedure、Trigger等功能。 Hive会将用户输入的Hive QL指令编译成Java程序,再来存取HDFS文件系统上的数据,所以,执行效率依指令复杂度和处理的数据量而异,可能有数秒钟,甚至是数分钟的延迟。和HBase相比,Hive容易使用且弹性高,但执行速度较慢。不少数据库系统,都是通过先连结到Hive,才能与Hadoop整合。例如微软就是通过Hive ODBC驱动程序,将SQL指令转换成Hive QL,让Excel可以存取Hadoop上的数据。

  在同一个Hadoop集群中,Hive可以存取HBase上的数据,将HBase上的数据对应成Hive内的一个表格。

  Pig 不懂Java开发也能写MapReduce  Pig提供了一个Script语言Pig Latin,语法简单,类似可读性高的高等BasiC语言,可用来写MapReduce程序。Pig会自动将这些脚本程序转换,成为能在Hadoop中执行的MapReduce Java程序。

  因此,使用者即使不懂Java也能写出MapReduce.不过,一般来说,通过Pig脚本程序转换,会比直接用Java写MapReduce的效能降低了25%.

  ZooKeeper 让Hadoop内部服务器能协同运作  Zookeeper是监控和协调Hadoop分布式运作的集中式服务,可提供各个服务器的配置和运作状态信息,用于提供不同Hadoop系统角色之间的工作协调。

  以HBase数据库为例,其中有两种服务器角色:Region服务器角色和Master服务器角色,系统会自动通过ZooKeeper监看Master服务器的状态,一旦Master的运作信息消失,代表当机或网络断线,HBase就会选出另一台Region服务器成为Mater角色来负责管理工作。

  Mahout 立即可用的常用MapReduce程序库  在Hadoop中,开发人员必须将数据处理作法拆解成可分散运算的Map和Reduce程序,因为思考逻辑和常见的程序开发逻辑不同,所以开发难度很高。Mahout则提供了一个常用的MapReduce函式库,常见的数值分析方法、集群分类和筛选方式,都已经有对应的MapReduce函数可呼叫,开发人员就不必再重复开发一次。
  转载来自于:http://blog.csdn.net/lifuxiangcaohui/article/details/9950677

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop体系架构是一个分布式系统,包括HDFS、MapReduce、YARN等组件。其,HDFS是Hadoop分布式文件系统,是Hadoop体系架构的核心组件之一。在使用Hadoop体系架构时,安全问题是非常重要的,特别是围绕HDFS的安全问题。以下是对HDFS安全问题进行分析: 1. 访问控制:HDFS默认情况下没有访问控制,任何人都可以访问其的文件。因此,需要对HDFS进行访问控制,限制只有授权用户才能访问HDFS的文件。可以使用Kerberos认证,将用户身份验证和授权结合起来,确保只有授权用户才能访问HDFS。 2. 数据加密:HDFS的数据在传输和存储过程需要进行加密,以保护数据的机密性。可以使用SSL/TLS协议对数据进行加密,确保数据传输过程不会被窃听或篡改。同时,还可以使用AES或DES等加密算法对数据进行加密,确保数据在存储过程不会被非法访问。 3. 安全审计:HDFS的文件访问和操作都需要进行审计,以便及时发现安全问题。可以使用Hadoop审计日志,记录所有的文件访问和操作,包括用户身份、时间、访问方式等信息,以便对HDFS进行安全审计。 4. 防止拒绝服务攻击:HDFS的数据节点可以被攻击者利用进行拒绝服务攻击,导致HDFS无法正常工作。因此,需要对HDFS进行防火墙设置,限制对HDFS的访问,并使用入侵检测系统对HDFS进行实时监控,及时发现和阻止攻击行为。 总之,HDFS作为Hadoop体系架构的核心组件,安全问题是非常重要的。需要对HDFS进行访问控制、数据加密、安全审计和防止拒绝服务攻击等措施,确保HDFS的安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值