- 博客(19)
- 资源 (3)
- 收藏
- 关注
转载 java 自动识别并解压HDFS压缩文件
使用java读取gz压缩的hdfs文件根据hdfs文件的后缀类型自动识别并解压: Path hdfsPath = new Path(args[0]); Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(hdfsPath.toUri(),conf); Compressio
2014-03-11 18:04:18 3352
原创 hadoop2.2.0的编译(64位linux系统)
众所周知,hadoop的32位系统的版本是在官网上可以下载不需编译的,64位版本则需要下载源代码然后在本地进行编译。下面简要介绍我的编译过程:1. 在官网下载源代码http://apache.claz.org/hadoop/common/hadoop-2.2.0/我的是hadoop-2.2.0-src.tar.gz2. 在本地安装maven,并配置好环境变量;3. 安装p
2014-02-25 20:55:54 523
原创 python集合优化实践
前段时间在用字典时发现如果集合比较大时,用in语句非常耗时,跑一个三四百M的输入要1个小时;经过改进用set取代list,并且取消掉in语句,发现速度既然提高60倍,在短短的一分钟之类完成,下面附上代码: 未优化代码:pvdic={}uvdic={}day=sys.argv[1]for line in sys.stdin: frags = line
2014-02-20 11:19:15 622
转载 hive日期函数
无论做什么数据,都离不开日期函数的使用。这里转载一下Hive的日期函数的使用,写的相当完整。 日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当
2014-02-14 20:24:08 732
转载 SQL集合函数中利用case when then技巧
我们都知道SQL中适用case when then来转化数据库中的信息 比如 select (case sex when 0 then '男' else '女' end) AS sex from studentInfo那么在集合函数中它有什么用呢 ?假设数据库有一张表名为student的表。如果现在要你根据这张表,查出江西省男女个数,广东省男生个数,浙江省
2014-02-10 12:05:09 547
转载 linux bash环境下面给expect脚本传递参数
#!/usr/bin/expect# file name :rauth# Usages : rauth username [ passworld ]# Description : 自动发送用户名与密码# 运行 myxrgsu -aif { $argc != 2 && $argc != 1 } { send_user "Usage:auth username \[p
2014-01-17 14:27:12 736
转载 hive partition简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥
2013-12-15 11:12:36 548
转载 关于python全局性解释锁(GIL)
为什么python的多线程不靠谱?那我们简单了解下python和其它语言的一些差别:像C++这样的语言是编译型语言,所谓编译型语言,是指程序输入到编译器,编译器再根据语言的语法进行解析,然后翻译成语言独立的机器码,最终链接成具有高度优化的机器码的可执行程序。编译器之所以可以深层次的对代码进行优化,是因为它可以看到整个程序(或者一大块独立的部分)。这使得它可以对不同的语言指令之间的交互进行推
2013-11-15 12:18:57 1015
原创 hadoop批量安装第三方包
将c08 机器的IP地址写进C08文件中,准备好安装包 chardet-2.1.1.tar.gz通过rsync.sh 脚本进行远程批量安装。more rsync.sh #!/bin/bashpath=/home/mapreducesoft=/home/mapreduce/chardet-2.1.1/bin/cat ./c08 | while read ip ;
2013-11-15 11:42:02 685
转载 hadoop 常用环境变量及使用
hadoop 常用环境变量及使用HADOOP_HOME计算节点上配置的Hadoop路径LD_LIBRARY_PATH计算节点上加载库文件的路径列表PWD当前工作目录dfs_block_size当前设置的HDFS文件块大小map_input_filemapper正在处理的输入文件路径,包含文件名mapred_job_id作业IDmapred_j
2013-07-23 12:44:16 3840
原创 linux控制并发运行进程数
linux控制并发运行进程数,可以使用重定向。代码示范如下:tmp_file="/tmp/$$.fifo"mkfifo $tmp_fileexec 6rm -f $tmp_filethread=3 # 并行运行任务数for ((i=0;ido echo >&6donewhile [ $startday -le $endday ]do
2013-07-17 15:36:48 1290
原创 java获取网页信息或提交请求函数
import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.UnsupportedEncodingException;import java.net.MalformedURLException;import java.net.UR
2013-06-24 14:25:49 825
原创 Java读SequenceFile
protected void setup(Context context) throws IOException, InterruptedException { super.setup(context); interestfile = context.getConfiguration().get("interestfile"); Configurati
2013-06-18 11:33:05 1152
转载 利用JavaAPI访问HDFS的文件
1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件Hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.tmp.dir/home/zhangzk/hadoopA base
2013-04-24 11:47:09 446
转载 java缓存读写文件小例子
在一个叫掏你屋的博客上看到的小例子,缓存读写文件: package com.taoniwu; import java.util.regex.*; import java.io.*; public class TestRead { public staticvoid main (String[] args) { File file=new Fi
2012-08-20 15:38:02 921
转载 Hadoop Streaming 实战: 多路输出
streaming把reduce的输出作为一个任务的最终输出,输出文件形如: part-00000、part-00001…… 文件个数为reduce任务个数 但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使用reduce的多路输出。在hadoop-v2-u7中
2012-05-28 17:47:14 640
转载 python类型数值操作
python类型转换函数 描述 int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,imag ]) 创建一个复数 str
2012-04-18 15:29:12 289
转载 优秀是一种习惯(转)
要成功,就马上准备有所付出吧!这就是每天你应该养成的习惯。 1、不说“不可能”; 2、凡事第一反应: 找方法,不找借口; 3、遇到挫折对自己说声:太好了,机会来了! 4、不说消极的话,不落入消极的情绪,一旦发生立即正面处理; 5、凡事先订立目标; 6、行动前,预先做计划; 7、工作时间,每一分、每一秒做有利于生产的事情; 8、随时用零碎的时间做零碎的事情; 9、
2012-03-27 11:09:59 247
转载 Python的lambda函数与排序
前几天看到了一行求1000的阶乘的Python代码:print reduce ( lambda x , y : x* y , range ( 1 , 1001 )) 一下子被python代码的精简与紧凑所折服,故对代码进行了简单的分析。reduce与range都是Python的内置函数。range(1,1001)表示生成1到1000
2012-02-21 15:19:27 468
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人