自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

快乐程序员的专栏

专注于hadoop运维,大数据处理,即席查询,hadoop生态圈组件研究

  • 博客(42)
  • 资源 (10)
  • 收藏
  • 关注

原创 hadoop对于压缩文件的支持及算法优缺点

hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。  如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。压缩格式工具算法文件扩展名多文件可分割性DEFLATE无D

2013-08-26 19:46:52 1170

转载 The Role of Delegation Tokens in Apache Hadoop Security

Delegation tokens play a critical part in Apache Hadoop security, and understanding their design and use is important for comprehending Hadoop’s security model.Authentication in Apache HadoopA

2013-08-23 19:06:55 1335

转载 kerberos整合ldap进行服务器认证

1        前言假设你的Openldap已经配置好并成功运行,本文只是介绍如何使Openldap使用Kerberos来验证用户身份。本配置在FC5上通过,在使用rhe时,很可能会有不同的情况。2        名词解释2.1        Kerberos基于共享密钥的安全机制,由MIT发明,现在已经被标准化,最新是版本5,简称krb5。Kerberos特别适合局域网

2013-08-23 18:33:13 5788

转载 Kerberos简介

Kerberos简介Kerberos协议: Kerberos协议主要用于计算机网络的身份鉴别(Authentication), 其特点是用户只需输入一次身份验证信息就可以凭借此验证获得的票据(ticket-granting ticket)访问多个服务,即SSO(Single Sign On)。由于在每个Client和Service之间建立了共享密钥,使得该协议具有相当的安全性。条件

2013-08-23 15:32:40 1204

转载 今天主要讲解Kerberos与LDAP

今天主要讲解Kerberos与LDAP。虽然LDAP是加密的但是加密强度还不够,因此需要Kerberos。微软的活动目录就是:LDAP + kerberos + ntp + CA.因为Linux在命令行下操作所以较为复杂。 Kerberos是RHS333的重点,在实际的工作中Kerberos是重点。惠普的单点登录就是Kerberos实现的。一

2013-08-23 14:55:35 12368

转载 Shell比较两个日期的大小

在Shell中我们可以利用date命令比较两个日期的大小,方法是先把日期转换成时间戳格式,再进行比较。date 的+%s可以将日期转换成时间戳格式,看下面的例子:#!/bin/bash date1="2008-4-09 12:00:00"date2="2008-4-10 15:00:00" t1=`date -d "$date1" +%s`t2=`date -d "$date2

2013-08-22 11:35:26 9285

转载 谈谈基于Kerberos的Windows Network Authentication[下篇]

六、User2User Sub-Protocol:有效地保障Server的安全通过3个Sub-protocol的介绍,我们可以全面地掌握整个Kerberos的认证过程。实际上,在Windows 2000时代,基于Kerberos的Windows Authentication就是按照这样的工作流程来进行的。但是我在上面一节结束的时候也说了,基于3个Sub-protocol的Kerberos作

2013-08-21 16:54:39 983

转载 谈谈基于Kerberos的Windows Network Authentication [中篇]

四、引入Ticket Granting  Service通过上面的介绍,我们发现Kerberos实际上一个基于Ticket的认证方式。Client想要获取Server端的资源,先得通过Server的认证;而认证的先决条件是Client向Server提供从KDC获得的一个有Server的Master Key进行加密的Session Ticket(Session Key + Clien

2013-08-21 16:53:40 1021

转载 谈谈基于Kerberos的Windows Network Authentication[上篇]

Content:基本原理引入Key Distribution: KServer-Client从何而来引入Authenticator : 为有效的证明自己提供证据引入Ticket Granting  Service:如何获得TicketKerberos的3个Sub-protocol:整个Authentication的流程User2User Protocol: 有效地保障S

2013-08-21 16:46:17 961

转载 Windows安全认证是如何进行的?[Kerberos篇]

最近一段时间都在折腾安全(Security)方面的东西,比如Windows认证、非对称加密、数字证书、数字签名、TLS/SSL、WS-Security等。如果时间允许,我很乐意写一系列的文章与广大网友分享、交流。对于很多读者来说,今天讨论的可能是一个既熟悉、又陌生的话题——Windows认证。目录 一、Kerberos认证简介 二、如何获得“认购权证”? 三、如何通过“认购权证

2013-08-21 11:11:57 1044

转载 NameNode启动中image文件处理流程

NameNode时与image文件相关的大概有下面三步操作: 第一步  加载imageNameNode启动后时首先加载硬盘上的fsimage文件(保持了整个命名空间)和edits文件(保持了命名空间的操作日志),在内存中merge后将新的fsimage写到磁盘上,即做一次checkpoint。其中加载过程如图1所示:       

2013-08-21 10:15:58 1543

转载 JobTracker dump内存记录

1、dump命令行:jmap -dump:live,format=b,file=heap.bin 93592、dump时机:CMS GC结束后,这时heap最小,Full GC也最快2012-05-02T22:08:11.226+0800: 470959.079: [GC [1 CMS-initial-mark: 103404048K(121634816K)]

2013-08-21 10:07:10 917

转载 远程调试Hadoop

在调研JobTracker等异常问题时经常需要远程debug以实现单步跟踪。相对于打印日志,远程调试更方面更快捷,信息也更全面。这里列出远程调试的基本步骤。1、配置jvm选项启用远程debugHadoop的所有deamon启动都是bin/hadoop脚本实现的,该脚本最后一行会执行java命令来启动JVM进程。因此要启用远程debug,只需要修改该脚本最后一行即可。修改前最

2013-08-21 10:05:39 1083

转载 查看文件的block size

当向HDFS上写文件时,可以通过设置dfs.block.size配置项来设置文件的block size,这导致HDFS上不同文件的block size是不同的。有时候我们需要知道HDFS上某个文件的block size,比如想知道该该文件作为job的输入会创建几个map等。Hadoop FS Shell提供了一个-stat选项可以达到目的。官方文档描述这个选项时遗漏了可选参数。-stat选项的使用

2013-08-21 10:02:54 1389

转载 JobTracker心跳优化

马上要开始第二阶段优化了,赶快把第一阶段优化内容及结果贴下。•背景–繁忙时段98%~100%的handler线程被BLOCK–RPC请求堆积•Profiling工具 (定位瓶颈)–jstack线上环境使用–yjp测试环境使用优化一:避免频繁调用加锁方法•500次连续jstack结果分析

2013-08-21 10:01:22 1049

转载 Hadoop操作HDFS命令

Hadoop操作HDFS命令如下所示: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.txt复制到HDFS文件系统的/

2013-08-19 14:05:34 10209

转载 Hadoop查看目录空间使用情况

查看目录空间使用情况命令:hadoop fs -count [-q] 统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT, FILE_COUNT, CONTENT_SIZE FILE_NAME.带上-q选项后的输出列为:QUOTA, REMAINING_QUOTA, SPACE_QUOTA, REMAINING_SPACE_QUOTA,

2013-08-19 13:57:19 7488

转载 Hadoop 中的两表join

作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实现,希望能给使用hadoop 做数据分析的开发人员提供一点帮助. Facebook 今年在

2013-08-07 17:41:33 812

转载 图解GIT

GIT是非常优秀的版本控制工具,但是苦于git那晦涩难懂的man pages,还有众多的命令选项和怪异的用法,git有点难学。这篇文章分享我学习过程中收藏的一些好图,并围绕这些图讲讲我对git的理解,希望对大家有所帮助。GIT工作流程了解git,首先要弄清楚对象在被git管理过程中所处的4个阶段,分别是:工作目录、index(又称为暂存区)、本地仓库和远程仓库。从时间先后来讲,工作

2013-08-07 09:26:00 924

原创 Hive中SELECT TOP N的方法(order by与sort by)

我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。例如我们执行SQL:select a from ljntest01 order by a limit

2013-08-05 14:50:22 1220

原创 Hive UDF开发(多个参数)

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.sohu.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class Md5 extends U

2013-08-03 22:30:37 8942

转载 hive中UDF和UDAF使用说明

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St

2013-08-03 22:22:55 1404

转载 Hive 里面的 UDTF

hive 支持 UDF, UDAF, UDTF,这几个让你使用 hive 更加便捷。UDFudf 就是一个自定义的 function,输入一个或多个参数,返回一个返回值,类似 substr/trim 之类。写起来比较简单,重构 UDF 类的 evaluate 方法就可以了。可以参考http://richiehu.blog.51cto.com/2093113/386112 。 这

2013-08-03 22:09:22 1242

原创 Hive UDF开发(单个参数)

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.sohu.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class Md5 ext

2013-08-03 22:01:43 1306

原创 正确用DD测试磁盘读写速度

磁盘IO经常是hadoop集群的最大瓶颈,这个测试命令很有用。问: 以下几种方式测试磁盘读写速度有什么区别?     dd bs=1M count=128 if=/dev/zero of=test       dd bs=1M count=128 if=/dev/zero of=test; sync       dd bs=1M count=128 if=/de

2013-08-03 18:08:40 8595

原创 mysql中的load data infile用法

LOAD DATA [LOW_PRIORITY] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE]    INTO TABLE tbl_name    [FIELDS        [TERMINATED BY '\t']        [OPTIONALLY] ENCLOSED BY '']        [ESCAPED B

2013-08-03 16:17:01 2172

转载 Impala各版本新特性

自0.3之后的重点新特性1.0支持ALTER TABLE。支持通过Hints指定join策略。支持的Hints:[broadcast]:broadcast join策略(将小表放到所有节点上与大表进行分片join)[shuffle]:   partitioned join策略(分片join)支持刷新单个表的元数据。元数据的自动刷新仍然不支持。动态资源管理

2013-08-03 10:18:29 1656

转载 Impala重点问题列表

Impala重点问题列表(截止到1.01)从目前的情况来看,impala的稳定性和易用性还有待提高,在生产环境中部署还存在比较大的风险。未解决:impala-shell命令不兼容Python 2.4Impala 1.0.1中的impala-shell命令与Python 2.4不兼容, 后者是Red Hat 5的默认Python.Impala 1.0中的i

2013-08-03 10:14:27 3699

转载 Hive的原理—— 深入浅出学Hive

第一部分:Hive原理为什么要学习Hive的原理•一条Hive HQL将转换为多少道MR作业•怎么样加快Hive的执行速度•编写Hive HQL的时候我们可以做什么•Hive 怎么将HQL转换为MR作业•Hive会采用什么样的优化方式Hive架构&执行流程 Hive执行流程•编译器将一个Hive QL转换操作符•操

2013-08-02 22:00:39 1739

转载 Hive体系结构 —— 深入浅出学Hive

第一部分:概念 概念•用户接口:用户访问Hive的入口•元数据:Hive的用户信息与表的MetaData•解释器:分析翻译HQL的组件•编译器:编译HQL的组件•优化器:优化HQL的组件第二部分:Hive架构与基本组成架构图基本组成•用户接口,包括 CLI,JDBC/ODBC,WebUI•元数据存储,通

2013-08-02 21:59:58 1064

转载 hive 优化——深入浅出学Hive

第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的

2013-08-02 21:58:51 1022

转载 Hive Shell 基本操作——深入浅出学Hive

第一部分:Hive bin下脚本介绍Hive bin下的脚本介绍Exthivehive-config第二部分:Hive Shell 基本操作Hive 命令行•hive [-hiveconf x=y]* []* [|] [-S]•-i   从文件初始化HQL•-e   从命令行执行指定的HQL• -f   执

2013-08-02 21:58:10 1529

转载 Hive QL——深入浅出学Hive

第一部分:DDLDDL•建表•删除表•修改表结构•创建/删除视图•创建数据库•显示命令建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name   [(col_name data_type [COMMENT col_comment], ...)]   [COMMENT tab

2013-08-02 21:57:13 956

转载 Hive 高级编程——深入浅出学Hive

第一部分:产生背景产生背景•为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:Text File,Sequence File•内存中的数据格式: Java Integer/String, Hadoop  IntWritable/Text•用户提供的 map/reduce 脚本:不管什么语言,利用 s

2013-08-02 21:56:26 1117

转载 hive参数——深入浅出学Hive

第一部分:Hive 参数hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.spec

2013-08-02 21:55:49 1225

转载 Hive JDBC——深入浅出学Hive

第一部分:搭建Hive JDBC开发环境搭建:Steps•新建工程hiveTest•导入Hive依赖的包•Hive  命令行启动Thrift服务•hive --service hiveserver &        第二部分:基本操作对象的介绍Connection•说明:与Hive连接的Connection

2013-08-02 21:55:09 1660

转载 Hive 内建操作符与函数开发——深入浅出学Hive

第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2013-08-02 21:54:29 1327

转载 Hive安装与配置——深入浅出学Hive

第一部分:软件准备与环境规划Hadoop环境介绍•Hadoop安装路径•/home/test/Desktop/hadoop-1.0.0/•Hadoop 元数据存放目录•/home/test/data/core/namenode•Hadoop 数据存放路径•/home/test/data/core/datanodeHive环

2013-08-02 21:53:26 975

转载 初始Hive —— 深入浅出学Hive

第一部分:Hive简介什么是Hive•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序  第二部分:为什么使用Hive面临的问题  人员学习成本太高  项目周期要求太短  我只是需要一个简单的环境  

2013-08-02 21:51:13 915

转载 从SQL到HiveQL应改变的几个习惯

引言HiveQL非常像SQL,但二者并非等价,若不注意期间的一些差异,容易导致HiveQL的语义错误,或降低运行效率等问题。本文将逐步汇集HiveQL应用中发现的差异,整理与此以便查阅。更多HiveQL的语法知识见http://wiki.apache.org/hadoop/Hive/LanguageManual别名SQL中对列取别名,可如下应用:SELECT use

2013-08-02 21:43:57 1169

oracle 内置sql函数

oracle 内置sql函数 ,内置函数详细说明,

2010-11-24

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明,值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程 并发集合 显示锁 数据冲突 死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

非常漂亮的个人主页模板

个人主页模板 jsp php div css

2010-03-21

HTTP协议详解 学习servlet的必备资料

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下: 1.支持客户/服务器模式。 2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。 3.灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。 5.无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

2009-10-25

UML类图各种关系详解

UML类图各种关系详解 包括 继承 实现 聚合 等等 一张图道出类之间的各种关系 直观容易

2009-09-09

java 异常详解,java异常分类,创建自己的异常

java 异常详解,java异常分类,创建自己的异常

2009-08-18

servlet 返回 URL

Servlet 中处理 URL,获取表单内以及URL上所有的参数

2009-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除