- 博客(25)
- 资源 (31)
- 收藏
- 关注
原创 Hadoop JVM复用配置
Hadoop默认为每个task(map task 或者 reduce task) 启动一个jvm。鉴于目前小文件过多的问题,设置了jvm复用,即一个job内,多个task共享jvm,避免多次启动jvm,浪费资源和时间。测试Job信息:map:4715个reduce:20个input: 34Goutput: 25G优化前:1464 s
2013-04-27 17:33:13 1491
原创 hive一些参数
Group ByMap 端部分聚合:并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Reduce 端得出最终结果。基于 Hash参数包括:hive.map.aggr = true 是否在 Map 端进行聚合,默认为 Truehive.groupby.mapaggr.checkinterval
2013-04-27 15:37:44 667
转载 关于几种压缩算法以及hadoop和hbase中的压缩配置说明
Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取
2013-04-27 15:15:00 1858
转载 从一个经典案例看优化mapred.map.tasks的重要性
我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2 因为合并小文件默认为true,而dfs.block.size与hi
2013-04-27 09:52:49 1274
转载 hiveQL 本地mapreduce
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。 比如: Sql代码 hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to
2013-04-26 15:42:33 842
转载 hive并行执行job
用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql允
2013-04-26 15:10:19 5343 1
原创 记录一下Hive中间和最终结果压缩
中间Lzo,最终Gzip Java代码 set mapred.output.compress = true; set mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type = BLOC
2013-04-26 15:08:45 1377
转载 map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2013-04-25 14:44:58 789
原创 hadoop hdfs 上传下载文件
上传文件:package uploadfile;import java.io.*;import java.net.URI;import java.util.Date;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.conf.Con
2013-04-22 11:02:40 2087 1
转载 Hadoop中自定义计数器
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。3、基于上面2个理由,写个文档
2013-04-22 11:01:02 597
转载 hive文件存储格式
hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plaincopy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' > STORED A
2013-04-19 15:45:54 627
原创 yum 安装使用 mysql
设置好/etc/yum.conf (需要设置代理的完成这里的设置) proxy=http://IP:端口 proxy_username=XXXX proxy_password=1987@qwe开始安装:[root@sample ~]# yum -y install mysql-server ← 安装MySQL[root@sa
2013-04-18 18:06:11 637
原创 hadoop eclipse 运行报错
最近安装了hadoop的0.20.2 版本,然后再eclipse中安装了 对应的插件, 在运行 示例中的 程序 WordCount.java 的时候,出现了很多错误: 1. 配置连接的 hadoop Location name(取个名字) Map/Reduce Master(Job Tracker的IP和端口,根据mapred-site.x
2013-04-18 11:40:07 1579 1
转载 在eclipse中配置hadoop插件
1.安装插件准备程序:eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下,重启eclipse。2
2013-04-17 18:32:25 674
转载 Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=D
描述:在window下使用Eclipse进行hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%11/
2013-04-17 16:59:35 962
转载 Hadoop源码 – ipc.Server
1、前言昨天分析了ipc包下的RPC、Client类,今天来分析下ipc.Server。Server类因为是Hadoop自己使用,所以代码结构以及流程都很清晰,可以清楚的看到实例化、停止、运行等过程。2、Server类结构上面是Server的五个内部类,分别介绍一下:1)Call用以存储客户端发来的请求,这个请求会放入一个BlockQueue
2013-04-16 18:15:09 957
转载 phpHiveAdmin 软件开发和知识整理 (hive 读取后台log)
访问Hive接口有thrift,这没有太多可说的,只要调用封装好的方法就行了。之前因为Socket的阻塞问题,经常会发生Hive接口读取超时,修改一下Thrift里面的TSocket.php就好了。修改方法参看之前的php开发Hive web查询,跟网上的其他相关文章还是略有区别。 数据库的管理方面主要就是获取网页变量,然后拼sql字符串,这好像也没啥可讲的。多看Hive手册就会了。
2013-04-15 14:44:51 1500
原创 cloudera cdh4 环境搭建
最近cloudera hue 环境没有搭建成功,于是开始着手于cloudera 整套环境的搭建,发现网上也有一些文章,于是借鉴了一些,开始自己着手安装:1. 安装cloudera manager cloudera manager 可以通过它来安装cloudera 整个环境,于是先安装 cloudera manager 准备安装环境: 系统:centos 6.3
2013-04-11 16:15:36 2189
原创 vCenter 或者 vmwareworkstation 虚拟机 安装vmware tools
最近由于公司需要搭建 hadoop 环境,所以在创建了好多虚拟机:公司环境:虚拟化软件 vmware vSphere5于是开始安装,在vCenter 中安装了3台虚拟机,其中有一个安装的是centos minimal其他的安装vmwar tools 都是直接界面安装还是挺省事的:1. 点击安装 vmware tools 2. 去界面中会有相应的东西
2013-04-11 15:59:03 2170
原创 cloudera cdh4 hue 安装
最近公司想用hue 环境,自己直接搭建的hue环境需要各种hadoop,hive配置连接,到最后也没有配置成功hive,hue安装准备 :CentOS:antasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidy (for unit tests only)libxml2-develli
2013-04-11 15:35:22 3507 2
原创 centos 6.3 修改默认的系统语言
最近在安装cloudera cdh4 环境,于是安装了centos 6.3 64位的系统,在vCenter 中安装可以选择默认安装语言,在workstation9 中安装则无法选择安装语言,默认安装成了英文,结果就想改成中文,于是在网上开始了寻找方法:修改 /etc/sysconfig/i18n中 LANG="zh_CN.UTF-8" 为中文,LANG=
2013-04-11 14:46:48 7946
原创 linux下python安装
1.下载源代码 http://www.python.org/ftp/python/2.5.2/Python-2.5.2.tar.bz22. 安装 $ tar –jxvf Python-2.5.2.tar.bz2 $ cd Python-2.5.2 $ ./configure $ make $ make ins
2013-04-02 14:54:22 742
转载 hadoop SecondaryNameNode和NameNode
1.概述光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好
2013-04-02 10:34:44 686
转载 hadoop启动和运行中的error总结和处理方法
错误一:2010-11-09 16:59:07,307 INFO org.apache.hadoop.ipc.Server: Error register getProtocolVersionjava.lang.IllegalArgumentException: Duplicate metricsName:getProtocolVersion at org.apach
2013-04-02 10:15:16 1892 1
转载 hue 安装 + authrization manager安装
hue安装一,下载相应的hue版本包http://archive.cloudera.com/cdh/3/二,解压 自动到/usr/local下三,安装预备软件确定所有需要的工具都已经被安装成功, 否则下面的make install无法进行:RedhatDebianGccGcclibxml2-
2013-04-01 17:39:52 1759
Oracle知识库
2012-10-24
Java 优化编程
2012-08-07
Oracle调优心得
2012-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人