Hive
文章平均质量分 79
wulicode
大数据开发工程师。熟悉各种网站爬虫、文本挖掘、数据分析处理、python开发。彩票预测,自动下单。
展开
-
hive权限问题
1.给某个用户授权grant select on database ffcs_cheny to user ffcs_cheny;2.ddlStatement : ( createDatabaseStatement | switchDatabaseStatement | dropDatabaseStatement | createTableStatement | dropTableSta原创 2014-12-17 15:43:42 · 1279 阅读 · 0 评论 -
京东金融笔试
1.merge.mapfiles=true;2.merge.mapredfile=false;3.左右外连接的问题left outerright outerfull outerleft4.技术 管理 5.两张表join的时候大表在后小表在前 •hive 0.6 的时候默认认为写在select 后面的是大表,前面的是小表, 或者使用 /*+mapjoin(原创 2015-01-21 11:47:22 · 1975 阅读 · 0 评论 -
hive优化
一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma转载 2015-01-21 11:48:09 · 314 阅读 · 0 评论 -
hive 的运算
关系运算 (1)等值比较: = 语法:A = B 操作类型: 所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive> select 1 from dual where 1=1; 1 (2)不等值比较: 语法: A 操作类型: 所有基本类型转载 2015-01-21 10:08:58 · 440 阅读 · 0 评论 -
hive函数参考手册
1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。A 所有原始类型如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。转载 2015-01-21 10:40:46 · 313 阅读 · 0 评论 -
SQL ON HADOOP
系统架构Runtime Framework v.s. MPP在SQL on Hadoop系统中,有两种架构,一种是基于某个运行时框架来构建查询引擎,典型案例是Hive;另一种是仿照过去关系数据库的MPP架构。前者现有运行时框架,然后套上SQL层,后者则是从头打造一个一体化的查询引擎。有时我们能听到一种声音,说后者的架构优于前者,至少在性能上。那么是否果真如此?一般来说,对于SQL on转载 2015-01-29 16:54:23 · 817 阅读 · 0 评论 -
Hive的数据导入导出,插入,加载
简介用户接口,包括 CLI,JDBC/ODBC,WebUI元数据存储,通常是存储在关系数据库如 mysql, derby 中解释器、编译器、优化器、执行器Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算 l 用户接口主要有三个:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用原创 2014-10-16 09:40:42 · 1218 阅读 · 0 评论 -
Hive自定义函数
第一部分:产生背景 产生背景 •为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括: •文件格式:Text File,Sequence File •内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text •用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdo转载 2014-10-16 09:45:28 · 572 阅读 · 0 评论 -
Hive函数大全(二)
字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:转载 2014-10-16 09:52:55 · 3670 阅读 · 0 评论 -
Hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2015-01-27 17:22:50 · 421 阅读 · 0 评论 -
Hive函数大全
目录一、关系运算: 41. 等值比较: = 42. 不等值比较: 43. 小于比较: 44. 小于等于比较: 45. 大于比较: > 56. 大于等于比较: >= 57. 空值判断: IS NULL 58. 非空判断: IS NOT NULL 69. LIKE比较: LIKE 610. JAVA的LIKE操作: RLIKE 611. REG转载 2014-10-16 09:54:54 · 460 阅读 · 0 评论 -
Hadoop+Mysql+hive安装步骤
Hadoop+Hive+Mysql安装文档 软件版本redhat enterprise server5.564Hadoop1.0.0Hive0.8.1Mysql5Jdk1.6整体构架转载 2014-10-23 09:31:35 · 963 阅读 · 0 评论 -
Hive编程指南
第一二章、基本操作1.set命令会打印出命名空间,hivevar、hiveconf、system、env所有的变量。还可以给变量附新的值。2.Hive中‘一次使用命令’将结果保存起来[ffcs@nn71 bin]$ hive -S -e "select * from emp" > /home/ffcs/hive-0.13.0-bin/examples/files/mydat原创 2014-10-16 09:43:38 · 943 阅读 · 0 评论 -
Hive优化以及参数配置
Hive优化hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务转载 2015-04-22 11:43:37 · 3602 阅读 · 0 评论