自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL

2014-10-31 10:39:01 414

原创 Hive 的 distribute by

Order by 能够预期产生完全排序的结果,但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下,并不需要全局排序,此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做

2014-10-25 18:11:58 614

原创 设置map的数量

set mapred.max.split.size=400000000; set mapred.min.split.size.per.node=400000000; set mapred.min.split.size.per.rack=400000000; set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputF

2014-10-25 18:10:34 817

原创 oozie sqoop 定位到出错的行

在使用oozie调度sqoop时候,经常会出错

2014-10-21 14:35:47 763

原创 shell 输出重定向在调试中的使用

对于任何一条linux 命令执行,它会是这样一个过程: 一个命令执行了: 先有一个输入:输入可以从键盘,也可以从文件得到 命令执行完成:成功了,会把成功结果输出到屏幕:standard output默认是屏幕 命令执行有错误:会把错误也输出到屏幕上面:standard error默认也是指的屏幕

2014-10-17 11:15:09 1018

原创 oozie sqoop 参数中不能有空格,否则sqoop解析出错

oozie是hadoop生态系统中的工作流引擎,

2014-10-17 11:11:56 1641

原创 oozie 常用标签 -- coordinator.xml

xmlns="uri:oozie:coordinator:0.2">                 3600         20         ${execution_order}         ${materialization_throttle}                                     ${nameNode}/adx-data/lo

2014-10-15 19:07:28 1368

原创 hive 对于join条件如何书写

select        ${yyyymmdd} as stat_date,        COALESCE(c.advertiser_id,' ') as advertiser_id,        COALESCE(c.campaign_id,' ') as campaign_id,        COALESCE(c.earner_id,' ') as earner_id,

2014-10-15 19:07:25 592

原创 oozie 参数含义

如何找到正确的oozie参数的含义?

2014-10-15 18:28:28 2158

转载 数据库三大范式详解

数据库三大范式详解 作者:佚名    文章来源:本站原创    点击数:57304    更新时间:2009-8-7 数据库范式1NF 2NF 3NF BCNF(实例)     设计范式(范式,数据库设计范式,数据库的设计范式)是符合某一种级别的关系模式的集合。构造数据库必须遵循一定的规则。在关系数据库中,这种规则就是范式。关系数据库中的关系必须满足一定的要求,即满足不同的范式。目前关系

2014-10-13 14:53:18 454

原创 数据统计需要注意NULL

数据库中 select  refer_domain  from cjfOrder_stat; null null null

2014-10-11 18:15:40 473

原创 ssh 证书登录

实现原理 使用一种被称为"公私钥"认证的方式来进行ssh登录. "公私钥"认证方式简单的解释是 首先在客户端上创建一对公私钥 (公钥文件:~/.ssh/id_rsa.pub; 私钥文件:~/.ssh/id_rsa) 然后把公钥放到想要服务器上(~/.ssh/authorized_keys), 自己保留好私钥 当ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹

2014-10-10 10:07:56 575

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除