- 博客(12)
- 收藏
- 关注
转载 Hadoop Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL
2014-10-31 10:39:01 414
原创 Hive 的 distribute by
Order by 能够预期产生完全排序的结果,但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下,并不需要全局排序,此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做
2014-10-25 18:11:58 614
原创 设置map的数量
set mapred.max.split.size=400000000; set mapred.min.split.size.per.node=400000000; set mapred.min.split.size.per.rack=400000000; set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputF
2014-10-25 18:10:34 817
原创 shell 输出重定向在调试中的使用
对于任何一条linux 命令执行,它会是这样一个过程: 一个命令执行了: 先有一个输入:输入可以从键盘,也可以从文件得到 命令执行完成:成功了,会把成功结果输出到屏幕:standard output默认是屏幕 命令执行有错误:会把错误也输出到屏幕上面:standard error默认也是指的屏幕
2014-10-17 11:15:09 1018
原创 oozie 常用标签 -- coordinator.xml
xmlns="uri:oozie:coordinator:0.2"> 3600 20 ${execution_order} ${materialization_throttle} ${nameNode}/adx-data/lo
2014-10-15 19:07:28 1368
原创 hive 对于join条件如何书写
select ${yyyymmdd} as stat_date, COALESCE(c.advertiser_id,' ') as advertiser_id, COALESCE(c.campaign_id,' ') as campaign_id, COALESCE(c.earner_id,' ') as earner_id,
2014-10-15 19:07:25 592
转载 数据库三大范式详解
数据库三大范式详解 作者:佚名 文章来源:本站原创 点击数:57304 更新时间:2009-8-7 数据库范式1NF 2NF 3NF BCNF(实例) 设计范式(范式,数据库设计范式,数据库的设计范式)是符合某一种级别的关系模式的集合。构造数据库必须遵循一定的规则。在关系数据库中,这种规则就是范式。关系数据库中的关系必须满足一定的要求,即满足不同的范式。目前关系
2014-10-13 14:53:18 454
原创 ssh 证书登录
实现原理 使用一种被称为"公私钥"认证的方式来进行ssh登录. "公私钥"认证方式简单的解释是 首先在客户端上创建一对公私钥 (公钥文件:~/.ssh/id_rsa.pub; 私钥文件:~/.ssh/id_rsa) 然后把公钥放到想要服务器上(~/.ssh/authorized_keys), 自己保留好私钥 当ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹
2014-10-10 10:07:56 575
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人