博客专栏  >  互联网   >  大数据

大数据

大数据相关的技术实践,包括Hadoop,HBase,Storm等

关注
15 已关注
31篇博文
  • Yarn设计原理分析之NodeManager

    1、  和其他模块之间的交互接口分析1)作为client,NodeStatusUpdater通过ResourceTracker协议和RM进行交互(NMàRM)。该API有两个方法向RM注册NodeMa...

    2014-01-08 20:58
    6332
  • 执行mapreduce的几种方式

    执行mapreduce的几种方式 1、copy jar到hadoop中执行            ./hadoop jar  xxxx.jar mainclass           ./had...

    2012-12-17 17:17
    1870
  • hive架构原理简析-mapreduce部分

    整个处理流程包括主要包括,语法解析(抽象语法树,AST,采用antlr),语义分析(sematic Analyzer生成查询块),逻辑计划生成(OP tree),逻辑计划优化,物理计划生成(Task ...

    2012-12-19 15:47
    5631
  • map和reduce的数量是如何定义的

    一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = totalSize / mapred.map...

    2012-12-19 16:09
    2330
  • 通过jobtracker、tasktraker的log分析mapreduce的过程

    网上有很多mapreduce的源码解析以及执行过程,这里从相关的日志角度看mapreduce的执行过程,以便于在通过日志分析定位分析问题 先简单说一下mapreduce的执行过程,如下图: 1...

    2012-12-21 15:39
    4302
  • 实现自定义的UDF永久生效

    UDF永久生效现在是只能修改源代码.不过可以变通一下处理也可以实现. 在HIVE_HOME的bin目录下新建一个.hiverc的文件,把写好的udf的注册语句写在这里就可以类似HIVE内置的用法一样...

    2012-12-24 21:58
    2470
  • Hive distribute by sorl by order by 的区别

    distribute by:控制着在map端如何分区,按照什么字段进行分区,要注意均衡 sort by:每个reduce按照sort by 字段进行排序,reduce的数量按照默认的数量来进行,当然...

    2012-12-25 12:39
    5940
  • 设计一套实时分布式日志流收集平台(tail Logs --->HDFS)

    目前业界大概这么几个开源的分布式日志系统,notify+rsync,Facebook 的Scribe,apache的chukwa,linkin的kafa和cloudera的flume。 对这几款开源...

    2012-12-23 11:00
    5717
  • 从几个角度看hadoop相关参数优化

    HDFS文件系统调优   1、系统角度               存储方式,NameNode采用raid1+0,DataNode采用磁盘组JBOD方式                在顺序读文...

    2012-12-31 11:29
    1583
  • HDFS的存储结构以及操作流程简单总结

    一、NameNode数据结构 1、物理结构 ${dfs.name.dir}/current/{VERSION,edits,fsimage,fstime} dfs.name.dir是一个目录列表,...

    2013-01-02 12:03
    3251
  • HDFS的HA备份比较

    总结了一下HDFS的几种HA机制,简单从几个角度做了个比较,参见以下的类表   方案 说明 优点 缺点 恢复方式 Seco...

    2013-01-02 17:31
    2152
  • hadoop小文件的问题带来的问题和解决方案

    hadoop最初主要是针对流式文件的,每个文件在NameNode中都会保存一份文件元数据,并且运行过程中,元数据都是加载到内存中的,有namenode内存的限制;其次mapreduce的时候,每个小文...

    2013-01-03 09:33
    1176
  • 关于几种压缩算法以及hadoop和hbase中的压缩配置说明

    Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持 下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算...

    2013-01-06 22:51
    15514
  • 对TextFile格式文件的lzo压缩建立index索引

    hadoop中可以对文件进行压缩,可以采用gzip、lzo、snappy等压缩算法。 对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进...

    2013-01-19 14:00
    4988
  • 扩展Flume按照Time和Size对日志进行hdfs归档

    Flume的架构基本agent-->collect-->storage的架构,agent主要负责日志的产生,并把日志传给collector端,collect负责把agent发送的日志收集起来,发送给s...

    2013-01-20 11:21
    2958
  • FlumeNG1.3.1在Source Exec tail 文件方面的一个缺陷以及改进方式

    在用FlumeNG1.3.1 Tail 一个文件收集日志到HDFS中时,发现原始日志文件最后几行数据总是不能写入到HDFS文件中,即使HDFS按照大小或者时间rollling成了一个新的文件。   ...

    2013-03-08 10:55
    1532
  • 解决MapReduce过程中IO wait高的几个思路

    最近在MapReduce的逻辑运算测试的时,发现单个节点的CPU的IO wait值比较高,CPU大量的消耗在等待IO操作上。 单个节点的运算的数据量比较大,每秒的IO吞吐量将近200M,iotop监...

    2013-03-30 20:19
    2026
  • MapReduce中的cpu sys突然升到的抖动问题

    最近在测试过程中,发现在做map reduce数据分析的过程中,cpu sys部分会偶然的升到,甚至到达50%,抖动的比较厉害。 节点的磁盘的IO吞吐量比较大,每秒达到150M,大部分是tasktr...

    2013-04-03 20:48
    2733
  • MapReduce输出数据到oracle中的支持的一个BUG

    前段时间有组员对mapreduce输出关系型数据库进行了验证,发现不支持输出到oracle中,但是对mysql支持的没有问题,用的版本是hadoop 1.0.4。 经过调试,发现对oracle的支持...

    2013-04-07 09:18
    1688
  • zookeeper在mysql主库选举切换中的应用

    为了保证可用性,传统的关系型数据库(mysql)通常采用一主多备的方式,当主宕机后,切换到备机。 有多种方式可以做到主备自动失效检测切换,比如传统的HA软件heartbeat,keepalived等...

    2013-04-18 15:10
    9333

搜索
1256105
HBase存储
34150333

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部