博客专栏  >  云计算/大数据   >  玩转Hadoop

玩转Hadoop

学习分享Hadoop...

关注
6 已关注
27篇博文
  • 离线安装Cloudera Manager5.3.4与CDH5.3.4(二)

    Cloudera Manager Server和Agent都启动以后,就可以进行CDH5的安装配置了。 这时可以通过浏览器访问主节点的7180端口测试一下了(由于CM Server的启动需要花点时间...

    2015-06-27 22:54
    2797
  • 离线安装Cloudera Manager5.3.4与CDH5.3.4(一)

    这几天一直在安装CDH,头都搞大了,安装第三次,终于成功了。 第一次问题很多,后面卸载了,由于没有卸载干净导致第二次安装失败。后来索性重装系统了,直接使用了纯净系统进行安装。一个人跑到学院机房去装系...

    2015-06-27 21:40
    2102
  • YARN简述及优势

    MRv1缺点1、JobTracker容易存在单点故障2、JobTracker负担重,既要负责资源管理,又要进行作业调度;当需处理太多任务时,会造成过多的资源消耗。3、当mapreduce job非常多...

    2015-06-23 22:30
    1505
  • Hadoop的集群管理与安全机制

    HDFS数据管理1、设置元数据与数据的存储路径,通过 dfs.name.dir,dfs.data.dir,fs.checkpoint.dir(hadoop1.x)、 hadoop.tmp.dir,...

    2015-06-16 22:14
    1976
  • MapReduce排序及实例

    排序可分为四种排序: 普通排序 部分排序 全局排序 二次排序(比如有两列数据,第一列相同时,需要对第二列进行排序。) 普通排序 普通排序是Mapreduce本身就自带排序功能; Text...

    2015-06-16 16:38
    1513
  • MapReduce实现Reduce端Join操作实例

    使用案例: 联接两张表 Table EMP:(新建文件EMP,第一行属性名不要) Name Sex Age DepNo zhang male ...

    2015-06-15 22:56
    1143
  • MapReduce之计数器及实例

    简述:Hadoop计数器:可以让开发人员以全局的视角来审查相关作业的运行情况以及各项指标,及时做出错误诊断并进行相应处理。 相比而言,计数器方式比日志更易于分析。内置计数器:(1)Hadoop内置...

    2015-06-15 11:09
    1400
  • MapReduce之RecordReader组件源码解析及实例

    简述无论我们以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类; 系统默认的RecordReader是LineRecordReader,TextInputFormat...

    2015-06-14 21:32
    1322
  • MapReduce之Partitioner组件源码解析及实例

    简述 Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key来分发到不同的reduce中去处理;你可以自定义key的一个分发规则,如数据文件包含不同的大学,而输出的要求是每...

    2015-06-14 11:14
    1212
  • MapReduce之Combiner组件

    简述 Combiner的作用是把一个map产生的多个合并成一个新的,然后再将新的作为reduce的输入; 在map函数与reduce函数之间多了一个combine函数,目的是为了减少map输出的中...

    2015-06-13 22:53
    1122
  • MapReduce输入输出类型、格式及实例

    输入格式1、输入分片与记录 2、文件输入 3、文本输入 4、二进制输入 5、多文件输入 6、数据库格式输入1、输入分片与记录1、JobClient通过指定的输入文件的格式来生成数据分片Inp...

    2015-06-14 22:37
    4816
  • MapReduce错误处理,任务调度及Shuffle过程

    错误处理出现错误主要有以下三种: 1、Task任务 2、JobTracker失败 3、TaskTracker失败Task任务1、当map或者reduce子任务中的代码抛出异常,JVM进程会在退出...

    2015-06-10 16:32
    1220
  • MapReduce简述、工作流程及新旧API对比

    什么是MapReduce?你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1. 给在座的所有玩家中分配这摞牌。 2. 让每个玩家数自己...

    2015-06-10 10:40
    1721
  • Hadoop RPC远程过程调用源码解析及实例

    什么是RPC?1、RPC(Remote Procedure Call)远程过程调用,它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。经常用于分布...

    2015-06-08 21:01
    1213
  • Hadoop对小文件的解决方案

    小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中, 每一个ob...

    2015-06-07 22:07
    2295
  • Hadoop基于文件的数据结构及实例

    基于文件的数据结构 两种文件格式: 1、SequenceFile 2、MapFileSequenceFile1、SequenceFile文件是Hadoop用来存储二进制形式的对而设计的一种平面文...

    2015-06-07 17:24
    1405
  • Hadoop序列化机制及实例

    序列化1、什么是序列化? 将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。 2、什么是反序列化? 将字节流转换为一系列结构化对象的过程。序列化用途:1、作为一种持久化格式。 2...

    2015-06-10 22:37
    2415
  • HDFS数据完整性

    为了保证数据的完整性,一般采用数据校验技术: 1、奇偶校验技术 2、md5,sha1等校验技术 3、CRC-32循环冗余校验技术 4、ECC内存纠错校验技术HDFS数据完整性 1、HDFS以...

    2015-06-06 17:36
    1673
  • Hadoop文件解压缩

    Class org.apache.hadoop.io.compress .CompressionCodecFactory A factory that will find the correct ...

    2015-06-05 21:56
    1348
  • Hadoop的压缩算法实例及压缩算法选取

    常见数据压缩算法压缩文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hado...

    2015-06-05 21:11
    1415

Python之路
1437
Hive之翼
1445330
暴走HBase
1538534
数据结构&&算法
1319045
玩转Java
2431851
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部