2013年11月_easonworld

转载 CDH——hadoop

sudo vi /etc/apt/sources.list.d/cloudera.listdeb [arch=amd64] http://archive.cloudera.com/cdh4/ubuntu/precise/amd64/cdh precise-cdh4 contribdeb-src http://archive.cloudera.com/cdh4/ubuntu/precise/am

2013-11-29 18:01:25 735

原创 hive union （all）

多表合并，字段名必须匹配union all 需放于子查询中，合并后的表要有别名union 去掉重复的union all 不去重eg：select * from (select age, name from test1 union all select age, name from test) a;特殊用处：person_name 表 (id ,

2013-11-29 10:45:28 2629

转载 hive 包含操作（left semi join）（left outer join = in）迪卡尔积

目前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含一个字段,uid。 in查询如果要查询当天登陆的注册用户，需要用in查询，hive sql如下:select login.uid fr

2013-11-22 14:31:37 2352

转载多行文件变一行

我给出了如下三种方法： 1. 采用awk awk BEGIN{RS=EOF}'{gsub(/\n/," ");print}' file 说明：awk默认将记录分隔符（record separator即RS）设置为\n，此行代码将RS设置为EOF（文件结束），也就是把文件视为一个记录，然后通过gsub函数将\n替换成空格，最后输出。 2. 采用

2013-11-19 19:30:36 991

转载 awk linux

一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到最后一行，寻找匹配的特定模

2013-11-15 15:50:03 394

原创日常用命令

解压 .gz文件gunzip文件名解压.zip文件unzip文件名查看文件行数cat 文件名| wc -l查看文件或文件夹大小du -h --max-depth=1 /usr ——会显示usr文件夹下一级目录的大小max-depth参数表示指定深入目录的层数,很重要，不指定的话，会显示所有层次目录du -h 文件名 ——会显

2013-11-14 10:54:32 384

转载 grep、sed、awk

一、grep用法详解1.grep是干什么的grep的全名是Galobal research Regular Expression and Pringtiong，即搜索正则表达式，也就是说grep简单来讲就是用来搜索匹配字符的2.grep分类grep有基本正则表达式和扩展正则表达式之分,不过她们的作用域和使用方法大同小异3.grep用法及选项首先普通的用法:grep [opt

2013-11-05 15:21:53 849

转载 sqoop导oracle.mysql数据到hdfs hive

1. 下载hadoop和sqoop2. 把hadoop-core-1.2.1.jar放到sqoop的lib文件夹下3. 把ojdbc6.jar放到sqoop的lib文件夹下4. 把sqoop的sqoop-1.4.4.jar放到hadoop的lib下5.修改sqoop-1.2.0-CDH3B4/bin目录中的configure-sqoop文件找到下面的脚本，在每一行的前面添加#符

2013-11-04 14:40:21 923

原创 cd_old

#!/usr/bin/env pythonimport sysimport datetimeorg_list=[] #存储某个订单在生命周期内所经过的所有站点dict={}subdict={}subdict1={}subdict2={}subdict3={}org_id=''s_id=''tag='0'

2013-11-01 21:50:39 581

原创 py——cd

#!/usr/bin/env pythonimport sysimport datetimeimport cx_Oracleorg_type_list=[]org_list=[] dict={}subdict={}subdict1={}subdict2={}subdict3={}org_id=''s_id=''

2013-11-01 21:38:09 562

转载查看和设置rpm的默认安装路径

rpm -ql XXX.rpm 就可以看到XXX在系统的哪些位置 rpm -qc httpd 大多数人安装RPM包，都是使用下面的命令来安装：rpm -ivh xxxx.rpm这是最简单的安装方式，RPM包中的文件将被安装到打包时所指定的默认目录中。但在有的时候，我们没有系统的root权限不能写入根目录，或者因为某种原因(比如在进

2013-11-01 14:34:29 1304

转载 python连接oracle 以及 ubuntu安装rpm

cx_oracle下载地址：http://sourceforge.net/projects/cx-oracle/files/oracle instant client下载：http://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.html#!/usr/bin/env pythoni

2013-11-01 14:33:30 1070

godspeedlaile9的专栏