2013年04月_小桥

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hadoop JVM复用配置

Hadoop默认为每个task（map task 或者 reduce task）启动一个jvm。鉴于目前小文件过多的问题，设置了jvm复用，即一个job内，多个task共享jvm，避免多次启动jvm，浪费资源和时间。测试Job信息：map：4715个reduce：20个input： 34Goutput: 25G优化前：1464 s

2013-04-27 17:33:13 1491

原创 hive一些参数

Group ByMap 端部分聚合：并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。基于 Hash参数包括：hive.map.aggr = true 是否在 Map 端进行聚合，默认为 Truehive.groupby.mapaggr.checkinterval

2013-04-27 15:37:44 667

转载关于几种压缩算法以及hadoop和hbase中的压缩配置说明

Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy，其中lzo、snappy需要操作系统安装native库才可以支持下面这张表，是比较官方一点的统计，不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的，压缩比最高，GZIP不能被分块并行的处理；Snappy和LZO差不多，稍微胜出一点，cpu消耗的比GZIP少。通常情况下，想在CPU和IO之间取

2013-04-27 15:15:00 1858

转载从一个经典案例看优化mapred.map.tasks的重要性

我所在公司所使用的生产Hive环境的几个参数配置如下：dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2 因为合并小文件默认为true，而dfs.block.size与hi

2013-04-27 09:52:49 1274

转载 hiveQL 本地mapreduce

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如： Sql代码 hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to

2013-04-26 15:42:33 842

转载 hive并行执行job

用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率，但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql允

2013-04-26 15:10:19 5343 1

原创记录一下Hive中间和最终结果压缩

中间Lzo,最终Gzip Java代码 set mapred.output.compress = true; set mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type = BLOC

2013-04-26 15:08:45 1377

转载 map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2013-04-25 14:44:58 789

原创 hadoop hdfs 上传下载文件

上传文件：package uploadfile;import java.io.*;import java.net.URI;import java.util.Date;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.conf.Con

2013-04-22 11:02:40 2087 1

转载 Hadoop中自定义计数器

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码，总在想统计一些错误的数据出现的次数，发现如果都写在reduce的输出里太难看了，所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器，但都是基于0.19版本写的，好多函数都不对，改动相对较大。3、基于上面2个理由，写个文档

2013-04-22 11:01:02 597

转载 hive文件存储格式

hive在建表是，可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如：[plain] view plaincopy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' > STORED A

2013-04-19 15:45:54 627

原创 yum 安装使用 mysql

设置好/etc/yum.conf （需要设置代理的完成这里的设置） proxy=http://IP:端口 proxy_username=XXXX proxy_password=1987@qwe开始安装：[root@sample ~]# yum -y install mysql-server　 ← 安装MySQL[root@sa

2013-04-18 18:06:11 637

原创 hadoop eclipse 运行报错

最近安装了hadoop的0.20.2 版本，然后再eclipse中安装了对应的插件，在运行示例中的程序 WordCount.java 的时候，出现了很多错误： 1. 配置连接的 hadoop Location name（取个名字） Map/Reduce Master（Job Tracker的IP和端口，根据mapred-site.x

2013-04-18 11:40:07 1579 1

转载在eclipse中配置hadoop插件

1.安装插件准备程序：eclipse-3.3.2（这个版本的插件只能用这个版本的eclipse）hadoop-0.20.2-eclipse-plugin.jar （在hadoop-0.20.2/contrib/eclipse-plugin目录下）将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下，重启eclipse。2

2013-04-17 18:32:25 674

转载 Win下Eclipse提交hadoop程序出错：org.apache.hadoop.security.AccessControlException: Permission denied: user=D

描述：在window下使用Eclipse进行hadoop的程序编写，然后Run on hadoop 后，出现如下错误：11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%11/

2013-04-17 16:59:35 962

转载 Hadoop源码 – ipc.Server

1、前言昨天分析了ipc包下的RPC、Client类，今天来分析下ipc.Server。Server类因为是Hadoop自己使用，所以代码结构以及流程都很清晰，可以清楚的看到实例化、停止、运行等过程。2、Server类结构上面是Server的五个内部类，分别介绍一下：1）Call用以存储客户端发来的请求，这个请求会放入一个BlockQueue

2013-04-16 18:15:09 957

转载 phpHiveAdmin 软件开发和知识整理（hive 读取后台log）

访问Hive接口有thrift，这没有太多可说的，只要调用封装好的方法就行了。之前因为Socket的阻塞问题，经常会发生Hive接口读取超时，修改一下Thrift里面的TSocket.php就好了。修改方法参看之前的php开发Hive web查询，跟网上的其他相关文章还是略有区别。数据库的管理方面主要就是获取网页变量，然后拼sql字符串，这好像也没啥可讲的。多看Hive手册就会了。

2013-04-15 14:44:51 1500

原创 cloudera cdh4 环境搭建

最近cloudera hue 环境没有搭建成功，于是开始着手于cloudera 整套环境的搭建，发现网上也有一些文章，于是借鉴了一些，开始自己着手安装：1. 安装cloudera manager cloudera manager 可以通过它来安装cloudera 整个环境，于是先安装 cloudera manager 准备安装环境：系统：centos 6.3

2013-04-11 16:15:36 2189

原创 vCenter 或者 vmwareworkstation 虚拟机安装vmware tools

最近由于公司需要搭建 hadoop 环境，所以在创建了好多虚拟机：公司环境：虚拟化软件 vmware vSphere5于是开始安装，在vCenter 中安装了3台虚拟机，其中有一个安装的是centos minimal其他的安装vmwar tools 都是直接界面安装还是挺省事的：1. 点击安装 vmware tools 2. 去界面中会有相应的东西

2013-04-11 15:59:03 2170

原创 cloudera cdh4 hue 安装

最近公司想用hue 环境，自己直接搭建的hue环境需要各种hadoop，hive配置连接，到最后也没有配置成功hive，hue安装准备：CentOS:antasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidy (for unit tests only)libxml2-develli

2013-04-11 15:35:22 3507 2

原创 centos 6.3 修改默认的系统语言

最近在安装cloudera cdh4 环境，于是安装了centos 6.3 64位的系统，在vCenter 中安装可以选择默认安装语言，在workstation9 中安装则无法选择安装语言，默认安装成了英文，结果就想改成中文，于是在网上开始了寻找方法：修改 /etc/sysconfig/i18n中 LANG="zh_CN.UTF-8" 为中文，LANG=

2013-04-11 14:46:48 7946

原创 linux下python安装

1．下载源代码 http://www.python.org/ftp/python/2.5.2/Python-2.5.2.tar.bz22．安装 $ tar –jxvf Python-2.5.2.tar.bz2 $ cd Python-2.5.2 $ ./configure $ make $ make ins

2013-04-02 14:54:22 742

转载 hadoop SecondaryNameNode和NameNode

1.概述光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。对于hadoop进程中，要配置好

2013-04-02 10:34:44 686

转载 hadoop启动和运行中的error总结和处理方法

错误一：2010-11-09 16:59:07,307 INFO org.apache.hadoop.ipc.Server: Error register getProtocolVersionjava.lang.IllegalArgumentException: Duplicate metricsName:getProtocolVersion at org.apach

2013-04-02 10:15:16 1892 1

转载 hue 安装 + authrization manager安装

hue安装一，下载相应的hue版本包http://archive.cloudera.com/cdh/3/二，解压自动到/usr/local下三,安装预备软件确定所有需要的工具都已经被安装成功, 否则下面的make　install无法进行：RedhatDebianGccGcclibxml2-

2013-04-01 17:39:52 1759

腾讯深度学习平台（译）

腾讯深度开发平台翻译文档，介绍深度学习平台架构等，有很好的学习价值，值得大家学习一下

2014-08-14

MFS文件系统使用手册.pdf

MFS文件系统使用手册，新手学习还是很不错的，大家可以学习一下

2014-01-09

基于事件的 NIO 多线程服务器（源码）

基于事件的 NIO 多线程服务器（源码）可以根据博客中的描述对照学习

2013-07-22

VMware-ESXI-5.0.0 key

2013-01-10

Oracle知识库

1.Oracle知识 2.DBA 3.Exp vs Imp 4.SQL技巧 5.Oracle错误 6.Oracle初学者入门 7.Oracle安装与删除 8.Oracle安全性问题 9.Oracle系统设置，优化，链接 10.索引，序列，快照，数据库链路，触发器 11.Oracle及其其他数据库比较 12.linux vs unix 13.Develop 2000

2012-10-24