- 博客(10)
- 问答 (2)
- 收藏
- 关注
原创 使用mapjoin效率对比
MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多使用一个表测试,该表时5分钟表,数据很少,大概60多w。测试日志里包含多个字段,其中有uid和uip。测试场景为给出2个uid,取uid共同的uip。三个不同uidselect /*+
2011-12-26 17:09:51 3919
原创 系统增加对hiveserver的负载均衡及单个server挂掉的保障
前期,dip-data-analyze 实现了线上的基本功能,这段时间,随着本部门及其他部门在上面跑任务增多,对hiveserver使用并发要求越来越高。之前碰到过很多次 hiveserver发生stackoverflow问题,发生该问题后,hiveserver就会很快失效,表现是进程在,端口通,但是不再接受任务。原因是hiveserver设置方法栈较低,之前-Xss=12
2011-12-22 15:05:11 3627 8
原创 hiveserver 占用内存过大的问题
今天为了求解hiveserver占用内存过大的问题,特地加了hive在apache的邮件列表,讨论半天。特别说的是 里面的人确实很热情啊 ,外国人做事确实很认真,讨论帖发的时候都狠详细。粘出一些记录:Did you update your JDK in last time? A java-dev told me that could bea issue in JDK
2011-12-12 19:40:08 7374
原创 基于hive的dip-data-analyze 重发
应公司要求,特别写了一个博客,提交给公司,这里也再重发下。基于hiveserver的Dip-Data-Analyze一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用
2011-12-12 13:29:17 1311
原创 2011hadoop技术大会实时数据分析
facebook在这次大会上谈了facebook的进展。他们以前架构是 applicationserver 将日志近乎实时的通过facebook自己的流传送工具scribe,传送到nfs。然后通过一个copyier或者loader(这里考虑应该是使用hive的load 到hive内表中)每小时载入hive/hadoop,r然后通过每天的pipeline jobs 运行任务 将结
2011-12-06 23:55:57 2714 1
转载 MySQL内存使用 - 全局共享
http://www.douban.com/group/topic/6230585/全局共享内则主要是 MySQL Instance(mysqld进程)以及底层存储引擎用来暂存各种全局运算及可共享的暂存信息,如存储查询缓存的 Query Cache,缓存连接线程的 Thread Cache,缓存表文件句柄信息的 Table Cache,缓存二进制日志的 BinLog Buffer,
2011-12-06 12:55:15 760
原创 dip-data-analyze 使用的hiveserver 实践之 jvm调优
目前dip-data-analyze 正在运行的任务有 38个。其中5分钟任务有2个,小时任务有 20个以上,晚上执行的任务有 6个.任务并不多,都是使用hivesql 连接到hiveserver去执行。本周曾经有2次 hiveserver 失效。现象表现为:进程在,但是不在接收任务,查看内存占用可以看到已经达到最大堆内存。上面这些任务中有很多是要计算1小时日志 中服务器i
2011-12-03 20:53:13 2837
转载 Java 6 JVM参数选项大全
http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htmJava 6 JVM参数选项大全(中文版) 作者:Ken WuEmail: ken.wug@gmail.com转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese
2011-12-03 00:25:25 1371
转载 jvm调优
http://unixboy.iteye.com/blog/174173这段时间在使用hiveserver时,经常发现hiveserver内存OOM或者过大导致进程僵死,不再接受请求。使用gc配置,希望对hiveserver能有效堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可
2011-12-02 23:36:09 724
空空如也
javaeye.com 目前存在的bug
2010-03-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人