hadoop问题集合

1、hadoop是什么:

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduceGoogle档案系统的论文自行实作而成。简而言之,就是一个分布式计算平台。核心为Hadoop Distributed System(Hadoop分布式文件系统)和MapReduce编程框架。Hadoop框架透明地为应用提供可靠性和数据移动;实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。hadoop的整个框架能够自动处理节点故障。

  hadoop的相关项目:hbase(列数据库)、hive(数据仓库工具)、zookeeper(分布式锁设施)、avro(新的数据序列化格式与传输工具,可取代Hadoop原有的IPC机制)。

2、基本原理:

      http://my.csdn.net/my/album/show/273809

        Map->shuffle->Reduce.

3、文件的权限问题

      用户目录权限为 755 或者 700,不能是其他权限;.ssh目录权限必须为755;

  id_rsa.pub 及authorized_keys权限必须为644;id_rsa权限必须为600 .

4、HDFS的数据块:

      这个数据块的大小不大于64MB。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值