自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

转载 CDH——hadoop

sudo vi /etc/apt/sources.list.d/cloudera.listdeb [arch=amd64] http://archive.cloudera.com/cdh4/ubuntu/precise/amd64/cdh precise-cdh4 contribdeb-src http://archive.cloudera.com/cdh4/ubuntu/precise/am

2013-11-29 18:01:25 735

原创 hive union (all)

多表合并,字段名必须匹配union all 需放于子查询中,合并后的表要有别名union  去掉重复的union all  不去重eg:select * from (select age, name from test1 union all select age, name from test) a;特殊用处:person_name 表  (id ,

2013-11-29 10:45:28 2629

转载 hive 包含操作(left semi join)(left outer join = in)迪卡尔积

目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户,字段只有一个uid),这两个表都包含一个字段,uid。 in查询如果要查询当天登陆的注册用户,需要用in查询,hive sql如下:select login.uid fr

2013-11-22 14:31:37 2352

转载 多行文件变一行

我给出了如下三种方法:      1. 采用awk      awk BEGIN{RS=EOF}'{gsub(/\n/," ");print}' file      说明:awk默认将记录分隔符(record separator即RS)设置为\n,此行代码将RS设置为EOF(文件结束),也就是把文件视为一个记录,然后通过gsub函数将\n替换成空格,最后输出。      2. 采用

2013-11-19 19:30:36 991

转载 awk linux

一.  AWK 说明       awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。       awk的处理文本和数据的方式:它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模

2013-11-15 15:50:03 394

原创 日常用命令

解压 .gz文件gunzip文件名解压.zip文件unzip文件名查看文件行数cat   文件名| wc -l查看文件或文件夹大小du -h --max-depth=1 /usr   ——会显示usr文件夹下一级目录的大小max-depth参数表示指定深入目录的层数,很重要,不指定的话,会显示所有层次目录du  -h   文件名   ——会显

2013-11-14 10:54:32 384

转载 grep、sed、awk

一、grep用法详解1.grep是干什么的grep的全名是Galobal research Regular Expression and Pringtiong,即搜索正则表达式,也就是说grep简单来讲就是用来搜索匹配字符的2.grep分类grep有基本正则表达式和扩展正则表达式之分,不过她们的作用域和使用方法大同小异3.grep用法及选项首先普通的用法:grep [opt

2013-11-05 15:21:53 849

转载 sqoop导oracle.mysql数据到hdfs hive

1. 下载hadoop和sqoop2. 把hadoop-core-1.2.1.jar放到sqoop的lib文件夹下3. 把ojdbc6.jar放到sqoop的lib文件夹下4. 把sqoop的sqoop-1.4.4.jar放到hadoop的lib下5.修改sqoop-1.2.0-CDH3B4/bin目录中的configure-sqoop文件找到下面的脚本,在每一行的前面添加#符

2013-11-04 14:40:21 923

原创 cd_old

#!/usr/bin/env pythonimport sysimport datetimeorg_list=[]             #存储某个订单在生命周期内所经过的所有站点dict={}subdict={}subdict1={}subdict2={}subdict3={}org_id=''s_id=''tag='0'      

2013-11-01 21:50:39 581

原创 py——cd

#!/usr/bin/env pythonimport sysimport datetimeimport cx_Oracleorg_type_list=[]org_list=[]             dict={}subdict={}subdict1={}subdict2={}subdict3={}org_id=''s_id=''

2013-11-01 21:38:09 562

转载 查看和设置rpm的默认安装路径

rpm -ql  XXX.rpm 就可以看到XXX在系统的哪些位置 rpm -qc httpd  大多数人安装RPM包,都是使用下面的命令来安装:rpm -ivh xxxx.rpm这是最简单的安装方式,RPM包中的文件将被安装到打包时所指定的默认目录中。但在有的时候,我们没有系统的root权限不能写入根目录,或者因为某种原因(比如在进

2013-11-01 14:34:29 1304

转载 python连接oracle 以及 ubuntu安装rpm

cx_oracle下载地址:http://sourceforge.net/projects/cx-oracle/files/oracle instant client下载:http://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.html#!/usr/bin/env pythoni

2013-11-01 14:33:30 1070

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除