自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (3)
  • 收藏
  • 关注

转载 java 自动识别并解压HDFS压缩文件

使用java读取gz压缩的hdfs文件根据hdfs文件的后缀类型自动识别并解压:  Path hdfsPath = new Path(args[0]); Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(hdfsPath.toUri(),conf); Compressio

2014-03-11 18:04:18 3352

原创 hadoop2.2.0的编译(64位linux系统)

众所周知,hadoop的32位系统的版本是在官网上可以下载不需编译的,64位版本则需要下载源代码然后在本地进行编译。下面简要介绍我的编译过程:1. 在官网下载源代码http://apache.claz.org/hadoop/common/hadoop-2.2.0/我的是hadoop-2.2.0-src.tar.gz2.  在本地安装maven,并配置好环境变量;3. 安装p

2014-02-25 20:55:54 523

原创 python集合优化实践

前段时间在用字典时发现如果集合比较大时,用in语句非常耗时,跑一个三四百M的输入要1个小时;经过改进用set取代list,并且取消掉in语句,发现速度既然提高60倍,在短短的一分钟之类完成,下面附上代码: 未优化代码:pvdic={}uvdic={}day=sys.argv[1]for line in sys.stdin:        frags = line

2014-02-20 11:19:15 622

转载 hive日期函数

无论做什么数据,都离不开日期函数的使用。这里转载一下Hive的日期函数的使用,写的相当完整。 日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当

2014-02-14 20:24:08 732

转载 SQL集合函数中利用case when then技巧

我们都知道SQL中适用case when then来转化数据库中的信息      比如  select (case sex when 0 then '男' else '女' end) AS sex  from studentInfo那么在集合函数中它有什么用呢 ?假设数据库有一张表名为student的表。如果现在要你根据这张表,查出江西省男女个数,广东省男生个数,浙江省

2014-02-10 12:05:09 547

转载 linux bash环境下面给expect脚本传递参数

#!/usr/bin/expect# file name :rauth# Usages : rauth username [ passworld ]# Description : 自动发送用户名与密码# 运行 myxrgsu -aif { $argc != 2 && $argc != 1 } {    send_user "Usage:auth username \[p

2014-01-17 14:27:12 736

转载 hive partition简介

一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥

2013-12-15 11:12:36 548

转载 关于python全局性解释锁(GIL)

为什么python的多线程不靠谱?那我们简单了解下python和其它语言的一些差别:像C++这样的语言是编译型语言,所谓编译型语言,是指程序输入到编译器,编译器再根据语言的语法进行解析,然后翻译成语言独立的机器码,最终链接成具有高度优化的机器码的可执行程序。编译器之所以可以深层次的对代码进行优化,是因为它可以看到整个程序(或者一大块独立的部分)。这使得它可以对不同的语言指令之间的交互进行推

2013-11-15 12:18:57 1015

原创 hadoop批量安装第三方包

将c08 机器的IP地址写进C08文件中,准备好安装包 chardet-2.1.1.tar.gz通过rsync.sh 脚本进行远程批量安装。more rsync.sh #!/bin/bashpath=/home/mapreducesoft=/home/mapreduce/chardet-2.1.1/bin/cat ./c08 | while read ip ;

2013-11-15 11:42:02 685

转载 hadoop 常用环境变量及使用

hadoop 常用环境变量及使用HADOOP_HOME计算节点上配置的Hadoop路径LD_LIBRARY_PATH计算节点上加载库文件的路径列表PWD当前工作目录dfs_block_size当前设置的HDFS文件块大小map_input_filemapper正在处理的输入文件路径,包含文件名mapred_job_id作业IDmapred_j

2013-07-23 12:44:16 3840

原创 linux控制并发运行进程数

linux控制并发运行进程数,可以使用重定向。代码示范如下:tmp_file="/tmp/$$.fifo"mkfifo $tmp_fileexec 6rm -f $tmp_filethread=3  # 并行运行任务数for ((i=0;ido    echo >&6donewhile [ $startday -le $endday ]do  

2013-07-17 15:36:48 1290

原创 java获取网页信息或提交请求函数

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.UnsupportedEncodingException;import java.net.MalformedURLException;import java.net.UR

2013-06-24 14:25:49 825

原创 Java读SequenceFile

protected void setup(Context context)   throws IOException, InterruptedException {  super.setup(context);    interestfile = context.getConfiguration().get("interestfile");        Configurati

2013-06-18 11:33:05 1152

转载 利用JavaAPI访问HDFS的文件

1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件Hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.tmp.dir/home/zhangzk/hadoopA base

2013-04-24 11:47:09 446

转载 java缓存读写文件小例子

在一个叫掏你屋的博客上看到的小例子,缓存读写文件: package com.taoniwu;  import java.util.regex.*;  import java.io.*;    public class TestRead {     public staticvoid main (String[] args) {          File file=new Fi

2012-08-20 15:38:02 921

转载 Hadoop Streaming 实战: 多路输出

streaming把reduce的输出作为一个任务的最终输出,输出文件形如:       part-00000、part-00001……       文件个数为reduce任务个数 但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使用reduce的多路输出。在hadoop-v2-u7中

2012-05-28 17:47:14 640

转载 python类型数值操作

python类型转换函数                      描述  int(x [,base ])         将x转换为一个整数  long(x [,base ])        将x转换为一个长整数  float(x )               将x转换到一个浮点数  complex(real [,imag ])  创建一个复数  str

2012-04-18 15:29:12 289

转载 优秀是一种习惯(转)

要成功,就马上准备有所付出吧!这就是每天你应该养成的习惯。 1、不说“不可能”; 2、凡事第一反应: 找方法,不找借口; 3、遇到挫折对自己说声:太好了,机会来了! 4、不说消极的话,不落入消极的情绪,一旦发生立即正面处理; 5、凡事先订立目标; 6、行动前,预先做计划; 7、工作时间,每一分、每一秒做有利于生产的事情; 8、随时用零碎的时间做零碎的事情; 9、

2012-03-27 11:09:59 247

转载 Python的lambda函数与排序

前几天看到了一行求1000的阶乘的Python代码:print    reduce ( lambda    x , y : x* y ,   range ( 1 ,    1001 )) 一下子被python代码的精简与紧凑所折服,故对代码进行了简单的分析。reduce与range都是Python的内置函数。range(1,1001)表示生成1到1000

2012-02-21 15:19:27 468

R语言入门教程

R语言入门教程

2013-07-12

kerberos安装和介绍文档

kerberos安装和介绍文档

2013-06-27

json-lib-2.4-jdk15.jar

json-lib-2.4-jdk15.jar

2013-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除