hive 常用参数

转载 2015年11月19日 13:20:38
hive.exec.max.created.files
•说明:所有hive运行的map与reduce任务可以产生的文件的和
•默认值:100000 
hive.exec.dynamic.partition
•说明:是否为自动分区
•默认值:false
hive.mapred.reduce.tasks.speculative.execution
•说明:是否打开推测执行
•默认值:true
hive.input.format
•说明:Hive默认的input format
•默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
•如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat
hive.exec.counters.pull.interval
•说明:Hive与JobTracker拉取counter信息的时间
•默认值:1000ms 
hive.script.recordreader
•说明:使用脚本时默认的读取类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader
hive.script.recordwriter
•说明:使用脚本时默认的数据写入类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter
hive.mapjoin.check.memory.rows
•说明: 内存里可以存储数据的行数
•默认值: 100000
hive.mapjoin.smalltable.filesize
•说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join
•默认值: 25000000
hive.auto.convert.join
•说明:是不是依据输入文件的大小,将Join转成普通的Map Join
•默认值: false
hive.mapjoin.followby.gby.localtask.max.memory.usage
•说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里
•默认值:0.55
hive.mapjoin.localtask.max.memory.usage
•说明:本地任务可以使用内存的百分比
•默认值: 0.90
hive.heartbeat.interval
•说明:在进行MapJoin与过滤操作时,发送心跳的时间
•默认值1000
hive.merge.size.per.task
•说明: 合并后文件的大小
•默认值: 256000000
hive.mergejob.maponly
•说明: 在只有Map任务的时候 合并输出结果
•默认值: true
hive.merge.mapredfiles
•默认值: 在作业结束的时候是否合并小文件
•说明: false
hive.merge.mapfiles
•说明:Map-Only Job是否合并小文件
•默认值:true
hive.hwi.listen.host
•说明:Hive UI 默认的host
•默认值:0.0.0.0
hive.hwi.listen.port
•说明:Ui监听端口
•默认值:9999
hive.exec.parallel.thread.number
•说明:hive可以并行处理Job的线程数
•默认值:8
hive.exec.parallel
•说明:是否并行提交任务
•默认值:false
hive.exec.compress.output
•说明:输出使用压缩
•默认值: false
hive.mapred.mode
•说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制
•默认值: nonstrict
hive.join.cache.size
•说明: join操作时,可以存在内存里的条数
•默认值: 25000
hive.mapjoin.cache.numrows
•说明: mapjoin 存在内存里的数据量
•默认值:25000
hive.join.emit.interval
•说明: 有连接时Hive在输出前,缓存的时间
•默认值: 1000
hive.optimize.groupby
•说明:在做分组统计时,是否使用bucket table
•默认值: true
hive.fileformat.check
•说明:是否检测文件输入格式
•默认值:true
hive.metastore.client.connect.retry.delay
•说明: client 连接失败时,retry的时间间隔
•默认值:1秒
hive.metastore.client.socket.timeout
•说明:  Client socket 的超时时间
•默认值:20秒
mapred.reduce.tasks
•默认值:-1
•说明:每个任务reduce的默认值
 -1 代表自动根据作业的情况来设置reduce的值 
hive.exec.reducers.bytes.per.reducer
•默认值: 1000000000 (1G)
•说明:每个reduce的接受的数据量
    如果送到reduce的数据为10G,那么将生成10个reduce任务 
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数      
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数
hive.metastore.warehouse.dir
•默认值:/user/hive/warehouse
•说明: 默认的数据库存放位置
hive.default.fileformat
•默认值:TextFile
•说明: 默认的fileformat
hive.map.aggr
•默认值:true
•说明: Map端聚合,相当于combiner
hive.exec.max.dynamic.partitions.pernode
•默认值:100
•说明:每个任务节点可以产生的最大的分区数
hive.exec.max.dynamic.partitions
•默认值:1000
•说明: 默认的可以创建的分区数
hive.metastore.server.max.threads
•默认值:100000
•说明: metastore默认的最大的处理线程数
hive.metastore.server.min.threads
•默认值:200
•说明: metastore默认的最小的处理线程数

Hive优化以及参数配置

Hive优化 hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive.limit.optimize.enable=true...
  • shujuwangzi
  • shujuwangzi
  • 2015年04月22日 11:43
  • 2191

Hive 参数介绍以及优化记录

本文参考:Hive 的参数说明:http://www.geedoo.info/hive-parameter-description.html                   Hive 工作中优化...
  • Mike_H
  • Mike_H
  • 2015年12月01日 15:48
  • 463

hive 传递外部变量的方式

Hive开发中使用变量的两种方法 2013/09/13 by Crazyant 暂无评论 在使用hive开发数据分析代码时,经常会遇到需要改变运行参数的情况,比如select语句中对...
  • daiyutage
  • daiyutage
  • 2016年02月07日 18:29
  • 1693

hive使用小技巧-如何往Hive SQL中传入参数

很多SQL需要重复执行,可能是每天执行一次,而需要修改的只是SQL中的日期字段,这种情况下可以使用 参数代入 使用的方式 $ hive -d key1=value1 -d key2...
  • qiaochao911
  • qiaochao911
  • 2013年05月02日 14:10
  • 4845

hive参数调优汇总

参考:http://blog.csdn.net/beckham008/article/details/23741151?utm_source=tuicool&utm_medium=referral ...
  • qq_18838991
  • qq_18838991
  • 2016年07月04日 10:48
  • 4527

Hive聚合函数及采样函数详解

本文主要使用实例对Hive内建的一些聚合函数、分析函数以及采样函数进行比较详细的讲解。...
  • yhao2014
  • yhao2014
  • 2015年06月03日 09:01
  • 8808

报表使用hive数据源报java.net.SocketTimeoutException: Read timed out

数据库表的数据量大概50W左右,在报表设计器下创建了hive的数据源,连接正常,由于数据量比较到,就用了润乾报表的大数据...
  • FM78_CSDN
  • FM78_CSDN
  • 2016年11月23日 17:45
  • 2250

Hive常用优化参数

常用调优测试语句 :   ①显示当前hive环境的参数值: set 参数名; 如:   ②设置hive当前环境的参数值,但仅对本次连接有效 set 参数名 = 值; 如: h...
  • q412774506
  • q412774506
  • 2015年07月22日 09:55
  • 1865

Hive一些参数设置

在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行 set mapred.job.priority=VERY_HIGH; set hiv...
  • zxx199225
  • zxx199225
  • 2016年12月15日 13:25
  • 1131

HiveQL查询变量(动态参数值)的使用

主要用hiveconf来进行变量值的获取,格式如下: 变量赋值: set pt_day='2016-12-31'; 变量引用: ${hiveconf:pt_day}  --> 用在Hql里 ...
  • BabyFish13
  • BabyFish13
  • 2017年01月24日 16:57
  • 836
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hive 常用参数
举报原因:
原因补充:

(最多只允许输入30个字)