Hive
qwurey
学生
展开
-
HiveQL:对数据定义的学习
1.Hive中的数据库:原创 2014-04-05 20:25:37 · 1093 阅读 · 0 评论 -
hive优化之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2014-04-06 21:08:11 · 1121 阅读 · 0 评论 -
hive中的全排序
写mapreduce程序时,如果reduce个数>1,想要实现全排序原创 2014-04-06 21:49:35 · 10946 阅读 · 1 评论 -
Hive的insert操作
insert 语法格式为:基本的插入语法:INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;原创 2014-04-06 19:51:08 · 40242 阅读 · 1 评论 -
hive导入数据出现NULL
由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是/u0001,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下: create table test(uid string,name string)row format delimited fields terminated by '/t';通过这种方式,完成分隔原创 2014-04-07 16:21:51 · 17502 阅读 · 1 评论 -
hive配置元数据库为postgresql小结
hive版本1.2.1hadoop2.7.1配置hive:根据hive的源数据不同分为三种模式 1、内嵌模式,使用自带的derby 2、本地独立模式,本地 pg库 3、远程模式,远程pg库,通过thrift连这里主要将第三种模式#假设hadoop2.7.1已经正常启动(1)配置环原创 2015-10-19 21:19:05 · 5884 阅读 · 0 评论 -
SparkSQL与Hive on Spark的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点Spark可以部署在YARN上Spark原生支持对HDFS文件系统的访问使用原创 2016-05-18 22:20:08 · 70809 阅读 · 8 评论 -
Hive内部表、外部表
hive内部表、外部表区别自不用说,可实际用说还是要小心原创 2014-04-06 16:54:53 · 16156 阅读 · 5 评论