hive
踩大侠
提高自己,与各位共同进步
坚持每周更新
展开
-
【大数据基础-数据仓库-05】HIVE基础知识考查
HIVE的架构图HIVE提交SQL之后的执行过程通过客户端提交查询dirver接收到查询,会创建session handle,并将该查询传递给编译器,生成逻辑执行计划编译器会向metastore发送获取元数据的请求metastore向编译器发送元数据,编译器使用元数据执行类型检查和语义分析。编译器会生成执行计划(DAG),对于MapReduce作业而言,执行计划包括map operator trees和reduce operator tree编译器向Driver发送生成的物理执行原创 2020-08-13 17:04:26 · 323 阅读 · 0 评论 -
HIVE多角度优化总结
说明hivesql应该越简单约好,sql优化一定要先确定瓶颈,瓶颈确定了才能针对性的去进行优化,否则就是自寻烦恼关于union的优化一般来说stage越多,意味着中间会有更多的中间数据落地磁盘,增大网络IO磁盘IO,建议熟练使用HIVE新版本支持的groupsetting函数去替换调整数据存储块大小数据块较大且集中,意味着会增大网络传输压力,数据块较小较多,会增大namenode读写的压力,join的时候可能会消耗大量的cpu/memory资源HIVE分区分桶适时使用HIVE分.原创 2020-05-20 17:15:01 · 297 阅读 · 0 评论 -
hive3.x异常- return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
提交joinsql核心异常如下return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskThe value of property yarn.resourcemanager.zk-address must not be nullorg.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Executio原创 2020-05-09 10:40:48 · 1851 阅读 · 0 评论 -
Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster
hive mr任务Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Container exited with a non-zero exit code 1...原创 2019-05-07 15:09:05 · 3111 阅读 · 0 评论 -
get_json_object不能解析json里面中文的key
get_json_object不能解析json里面中文的key一般来说不会把json中的key定义为中文,但是如果是中文的话可以用 hive 的json_tuplejson_tupleA new json_tuple() UDTF is introduced in Hive 0.7. It takes a set of names (keys) and a JSON string,...原创 2019-06-25 21:59:19 · 5157 阅读 · 0 评论 -
hive插入中文数据乱码
今天在hive中插入数据的时候使用了中文,结果select出来的全是乱码,经测试以下方法能够得以解决,特此记录select * from dept;+----------+----------------+--+| dept.id | dept.position |+----------+----------------+--+| 1 | ceo || 1 | 保安 |原创 2016-12-22 12:38:27 · 19536 阅读 · 4 评论 -
hive udtf 输入一列返回多行多列
之前说到了hive udf,见https://blog.csdn.net/liu82327114/article/details/80670415UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。继承org.apache.hadoop.hive.ql.udf.generic.Gene...原创 2018-06-13 20:40:11 · 6996 阅读 · 0 评论 -
hiveudf分割ASCII的STX、ETX(^B、^C)
ETX、STXSTX (start of text),正文开始 ,ETX (end of text),正文结束STX与ETX只是为了便于描述。其实STX用来描述16进制中的02这个字节,而ETX则是03vim编辑器打开的话显示^B、^C一次采集上来的数据就是这种格式,为拆成kv的形式做了如下处理现将此文件上传到hdfs,并建立对应的表第一种方案:使用hivesql、sparksql内置的函数里的s...原创 2018-06-13 12:14:37 · 4810 阅读 · 0 评论 -
udf开发入门(python udf、hive udf)
开发前的声明 udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发,比方说你只想拆分一个字段,拼接一个字段之类的,就不要去搞udf了,这种基本的需求自带函数完全支持,具体参数可参考文档:http://spark.apache.org/docs/latest/api/sql/search.html?q=cast 里面列举了所有函...原创 2018-06-12 20:46:05 · 36687 阅读 · 0 评论