自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (31)
  • 收藏
  • 关注

原创 Hadoop JVM复用配置

Hadoop默认为每个task(map task 或者 reduce task) 启动一个jvm。鉴于目前小文件过多的问题,设置了jvm复用,即一个job内,多个task共享jvm,避免多次启动jvm,浪费资源和时间。测试Job信息:map:4715个reduce:20个input:  34Goutput:  25G优化前:1464 s

2013-04-27 17:33:13 1484

原创 hive一些参数

Group ByMap 端部分聚合:并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Reduce 端得出最终结果。基于 Hash参数包括:hive.map.aggr = true 是否在 Map 端进行聚合,默认为 Truehive.groupby.mapaggr.checkinterval

2013-04-27 15:37:44 663

转载 关于几种压缩算法以及hadoop和hbase中的压缩配置说明

Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取

2013-04-27 15:15:00 1853

转载 从一个经典案例看优化mapred.map.tasks的重要性

我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2 因为合并小文件默认为true,而dfs.block.size与hi

2013-04-27 09:52:49 1271

转载 hiveQL 本地mapreduce

如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。 比如:  Sql代码  hive> select 1 from dual;  Total MapReduce jobs = 1  Launching Job 1 out of 1  Number of reduce tasks is set to

2013-04-26 15:42:33 831

转载 hive并行执行job

用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。在hive中也有并行执行的选项。  set hive.exec.parallel=true;   //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql允

2013-04-26 15:10:19 5326 1

原创 记录一下Hive中间和最终结果压缩

中间Lzo,最终Gzip Java代码  set mapred.output.compress = true;  set mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec;  set mapred.output.compression.type = BLOC

2013-04-26 15:08:45 1365

转载 map和reduce 个数的设定 (Hive优化)经典

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有

2013-04-25 14:44:58 786

原创 hadoop hdfs 上传下载文件

上传文件:package uploadfile;import java.io.*;import java.net.URI;import java.util.Date;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.conf.Con

2013-04-22 11:02:40 2074 1

转载 Hadoop中自定义计数器

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。3、基于上面2个理由,写个文档

2013-04-22 11:01:02 589

转载 hive文件存储格式

hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plaincopy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING)  > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'  > STORED A

2013-04-19 15:45:54 622

原创 yum 安装使用 mysql

设置好/etc/yum.conf     (需要设置代理的完成这里的设置)   proxy=http://IP:端口   proxy_username=XXXX   proxy_password=1987@qwe开始安装:[root@sample ~]# yum -y install mysql-server  ← 安装MySQL[root@sa

2013-04-18 18:06:11 629

原创 hadoop eclipse 运行报错

最近安装了hadoop的0.20.2 版本,然后再eclipse中安装了 对应的插件, 在运行 示例中的 程序  WordCount.java 的时候,出现了很多错误: 1.   配置连接的 hadoop          Location name(取个名字)      Map/Reduce Master(Job Tracker的IP和端口,根据mapred-site.x

2013-04-18 11:40:07 1573 1

转载 在eclipse中配置hadoop插件

1.安装插件准备程序:eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下,重启eclipse。2

2013-04-17 18:32:25 667

转载 Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=D

描述:在window下使用Eclipse进行hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%11/

2013-04-17 16:59:35 957

转载 Hadoop源码 – ipc.Server

1、前言昨天分析了ipc包下的RPC、Client类,今天来分析下ipc.Server。Server类因为是Hadoop自己使用,所以代码结构以及流程都很清晰,可以清楚的看到实例化、停止、运行等过程。2、Server类结构上面是Server的五个内部类,分别介绍一下:1)Call用以存储客户端发来的请求,这个请求会放入一个BlockQueue

2013-04-16 18:15:09 934

转载 phpHiveAdmin 软件开发和知识整理 (hive 读取后台log)

访问Hive接口有thrift,这没有太多可说的,只要调用封装好的方法就行了。之前因为Socket的阻塞问题,经常会发生Hive接口读取超时,修改一下Thrift里面的TSocket.php就好了。修改方法参看之前的php开发Hive web查询,跟网上的其他相关文章还是略有区别。 数据库的管理方面主要就是获取网页变量,然后拼sql字符串,这好像也没啥可讲的。多看Hive手册就会了。

2013-04-15 14:44:51 1487

原创 cloudera cdh4 环境搭建

最近cloudera hue 环境没有搭建成功,于是开始着手于cloudera 整套环境的搭建,发现网上也有一些文章,于是借鉴了一些,开始自己着手安装:1. 安装cloudera manager     cloudera manager 可以通过它来安装cloudera 整个环境,于是先安装 cloudera manager   准备安装环境:  系统:centos 6.3

2013-04-11 16:15:36 2177

原创 vCenter 或者 vmwareworkstation 虚拟机 安装vmware tools

最近由于公司需要搭建 hadoop 环境,所以在创建了好多虚拟机:公司环境:虚拟化软件  vmware vSphere5于是开始安装,在vCenter 中安装了3台虚拟机,其中有一个安装的是centos minimal其他的安装vmwar tools  都是直接界面安装还是挺省事的:1.  点击安装 vmware tools  2.  去界面中会有相应的东西

2013-04-11 15:59:03 2160

原创 cloudera cdh4 hue 安装

最近公司想用hue 环境,自己直接搭建的hue环境需要各种hadoop,hive配置连接,到最后也没有配置成功hive,hue安装准备 :CentOS:antasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidy (for unit tests only)libxml2-develli

2013-04-11 15:35:22 3502 2

原创 centos 6.3 修改默认的系统语言

最近在安装cloudera cdh4 环境,于是安装了centos 6.3 64位的系统,在vCenter 中安装可以选择默认安装语言,在workstation9 中安装则无法选择安装语言,默认安装成了英文,结果就想改成中文,于是在网上开始了寻找方法:修改 /etc/sysconfig/i18n中 LANG="zh_CN.UTF-8" 为中文,LANG=

2013-04-11 14:46:48 7924

原创 linux下python安装

1.下载源代码 http://www.python.org/ftp/python/2.5.2/Python-2.5.2.tar.bz22.  安装       $ tar –jxvf Python-2.5.2.tar.bz2       $ cd Python-2.5.2       $ ./configure       $ make       $ make ins

2013-04-02 14:54:22 731

转载 hadoop SecondaryNameNode和NameNode

1.概述光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好

2013-04-02 10:34:44 677

转载 hadoop启动和运行中的error总结和处理方法

错误一:2010-11-09 16:59:07,307 INFO org.apache.hadoop.ipc.Server: Error register getProtocolVersionjava.lang.IllegalArgumentException: Duplicate metricsName:getProtocolVersion        at org.apach

2013-04-02 10:15:16 1844 1

转载 hue 安装 + authrization manager安装

hue安装一,下载相应的hue版本包http://archive.cloudera.com/cdh/3/二,解压 自动到/usr/local下三,安装预备软件确定所有需要的工具都已经被安装成功, 否则下面的make install无法进行:RedhatDebianGccGcclibxml2-

2013-04-01 17:39:52 1749

腾讯深度学习平台(译)

腾讯深度开发平台翻译文档,介绍深度学习平台架构等,有很好的学习价值,值得大家学习一下

2014-08-14

MFS文件系统使用手册.pdf

MFS文件系统使用手册,新手学习还是很不错的,大家可以学习一下

2014-01-09

基于事件的 NIO 多线程服务器(源码)

基于事件的 NIO 多线程服务器(源码) 可以根据博客中的描述对照学习

2013-07-22

VMware-ESXI-5.0.0 key

VMware-ESXI-5.0.0 key

2013-01-10

Oracle知识库

1.Oracle知识 2.DBA 3.Exp vs Imp 4.SQL技巧 5.Oracle错误 6.Oracle初学者入门 7.Oracle安装与删除 8.Oracle安全性问题 9.Oracle系统设置,优化,链接 10.索引,序列,快照,数据库链路,触发器 11.Oracle及其其他数据库比较 12.linux vs unix 13.Develop 2000

2012-10-24

在Windows上安装Hadoop教程

在Windows上安装Hadoop教程 比较详细,想学的可以下下来看看

2012-10-23

Hadoop入门手册

高手整理的Hadoop学习资料 对于新手学习相当适合

2012-10-15

WIN7安装Oracle 步骤以及问题解决

记录了 WIN7安装oracle 的步骤 解决win7安装不上oracle的问题 大家可以参考

2012-10-11

《Hadoop开发者 》1-3期刊

《Hadoop开发者 》 帮你认识和学习hadoop 里面讲解还是比较详细的,对于初识者还是比较有帮助 推荐大家好好看看

2012-10-11

jQuery_EasyUI 中文教程

jQuery_EasyUI 中文教程 轻松学习jQuery_EasyUI 详细的例子 和讲解

2012-10-10

虚拟化与云计算PDF

虚拟化与云计算 电子工业出版社 电子扫描版 帮助大家认识虚拟化与云计算 是入门级书籍 推荐大家翻阅一下

2012-10-10

easyui 帮助文档

jQuery-easyui api 中文文档 简单方便 chm的

2012-10-10

Hadoop配置手册

Linux下配置hadoop 环境配置,以及运行操作的全部过程

2012-09-11

Java 优化编程

Java程序设计风格 内存管理 Java核心类与性能优化 JNI程序设计及性能优化 类与接口 JSP与Servlet性能优化 开发高性能的EJB应用 JMS性能优化 JDBC性能优化 软件结构,设计模式及性能优化

2012-08-07

开发中的sql积累

在开发过程中对处理sql,以及sql各种函数 还有各种关键字的积累

2012-08-07

Oracle调优心得

外部的性能问题 : CPU 内存 网络 行的重新排序 SQL 语句的调优 调整 Oracle 的竞争 调整 Oracle 的排序操作 表格和索引存储参数设置的要求总结

2012-08-07

NIO学习与总结

NIO的学习记录以及自己的总结,对关于NIO有个简单深刻的认识,可以应用在各个开发应用之中提升性能

2012-07-25

HTTP协议详解

非常详细的解读HTTP协议的各个方面的用途,帮助开发人员认识清楚协议的原理,保证开发的准确和明确性

2012-07-09

JAVA_JVM 深入理解虚拟机

深入理解java虚拟机 PDF,帮助开发人员来具体解释下虚拟机原理,以便更好的做开发

2012-07-09

Hadoop权威指南 中文版 第二版完全版

全方位的介绍Hadoop这一高性能处理海量数据集的理想工具

2012-05-12

JMS_ActiveMQ交流学习

JMS学习指导讲解PPT,ActiveMQ学习PPT 以及对JMS实现的研究

2012-02-21

Java实现几种常见的排序算法

Java实现几种常见的排序算法,包括插入排序,二分法排序,堆排序,选择排序,冒泡排序等等,常用的都设计到了。

2012-02-21

kettle 中的集群详解

kettle集群 技术详解,可以解决kettle中的集群技术问题!!

2011-08-01

IBM WebSphere MQ入门教程

IBM WebSphere MQ 学习分享

2011-08-01

kettle 应用简单java例子1

关于kettle的开源开发 基于java的例子,实现表之间的同步。

2011-08-01

学习ext中文帮助文档

关于ext的帮助文档,对于ext初学者极有帮助可以查询你所需要的东西

2010-08-08

企业人事管理系统的设计

实现了企业人事的管理各个方面的功能,对人事的管理更加方便和高效

2010-08-07

实现普通局域网聊天的软件

实现了局域网下的聊天功能,跟QQ界面功能相似

2010-08-07

小区物业管理系统的实现

针对各个小区的智能化管理,做出的小区物业管理系统,实现了住户信息管理,投诉管理,车辆管理,缴费管理,管理员管理,陌生人管理等功能。

2010-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除