hive
文章平均质量分 95
lsr40
菜鸡一个,还请见谅
展开
-
【Hive】升级元数据踩坑(mysql版本)
hive的版本更新得蛮快的,但是一般我们定好一个版本之后,就不太会升级,但是有时候想要用到一些新版本的特性,我们就需要升级hive的版本这就涉及到元数据迁移:有两种做法:1、写脚本https://blog.csdn.net/maotai_2010/article/details/52185822https://www.sohu.com/a/225997339_411876...原创 2021-01-20 17:20:51 · 3154 阅读 · 0 评论 -
【hive】hive加载json数据和解析json(二)
超久超久没写博客了,近来的都是比较杂的临时活,大家都在喊他的活很急,最要紧,挺令我心烦的,不过有活总比没活做好吧!言归正传,本文讲的是hive解析json格式的数据最近处理了这么一份数据,json格式的,其实我之前写了一篇博客:hive加载json数据和解析json(一):https://blog.csdn.net/lsr40/article/details/7939916...原创 2019-11-13 22:55:14 · 3688 阅读 · 4 评论 -
【hive】Exception: No type found for column type entry 19
菜鸡一只,记录一个hive报错~前几天,我司的一位数据分析师来找我,给我看了一个报错,大概如下:Caused by: java.lang.RuntimeException: Error creating a batch at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcInputFormat$VectorizedOrcRecordRead...原创 2019-06-11 14:54:34 · 2042 阅读 · 0 评论 -
【数据加密/脱敏】各种数据库、代码加密/解码的方法
本人菜鸡一只,阅读该文章之前,有句话我得先说一下:本文不是来介绍加密算法的,也不是来解释加密算法的过程的。如果本意想研究加密算法的实现,或者概念。不好意思本文可能啰哩叭嗦还帮不上忙!前言:数据加密,也就是数据脱敏。其实就是将一些涉及不是本人就不该看的字段数据通过某些方法,让别人就算拿到了数据也看不懂或者解析不出关键信息。当然加密总体上分两种,一种是可还原,一种是不可还原(当然只是相...原创 2018-12-13 00:43:31 · 5720 阅读 · 1 评论 -
【hive】hive创建库,表相关,拉数据到本地,自定义UDF,设置队列
菜鸡一只,如果有说错的地方还请大家指出批评!很多人,会有这样的想法:这个东西,很简单嘛,这样这样这样,就可以。当然一部分情况确实是这样的,不过有些时候,让你亲身去做这件事情,你又会觉得完全和想的是两码事,觉得困难重重。没错,我就是这样!我一直觉得hive建表,建库很简单啊!但是老是会忘记命令的具体写法,所以特地开一篇帖子来记录下我这个缺点和相关的sql。1、数据类型:官网...原创 2018-11-13 14:01:46 · 942 阅读 · 0 评论 -
【hive】从url中提取需要的部分字符串
本人菜鸟一只,如果有什么说错的地方还请大家批评指出!!事情是这样的,hive的A表中,有url这样的一个字段,我想要提取这个字段中的某一部分(这不就是截取字符串嘛)。但是substring肯定是满足不了我的需求的,自己写hive的udf也不太现实(用最简单的方式完成任务,才会让后来的维护变得更加方便,否则除了维护sql还要维护一堆udf,那才叫可怕)。因此我初步的想法就是正则!然后经过同事的提...原创 2018-09-04 23:25:25 · 15236 阅读 · 0 评论 -
hive -e 和hive -f 的注意点 (//和////)
原谅我张嘴可能就想骂人,当然跟别人无关,想骂的是自己太年轻,也顺便记录下这个注意点。菜鸟一只,多多见谅!! 大家都知道,hive -f 后面指定的是一个文件,然后文件里面直接写sql,就可以运行hive的sql,hive -e 后面是直接用双引号拼接hivesql,然后就可以执行命令。但是,有这么一个东西,我的sql当中有一个split切割,暂且先不管这个分割的业务逻辑是什么,但是...原创 2018-08-10 17:23:03 · 33910 阅读 · 8 评论 -
【已解决!】spark程序报错:java.lang.IndexOutOfBoundsException: toIndex = 9
该篇文章意于记录报错,也给遇到相同问题的小伙伴提供排错思路!但是本人也没有什么好的解决方法,如果有,我会更新此文章问题已经解决,请大家拉到最下面↓↓↓↓↓记录下报错:写了段spark代码,然后报错了2018-07-30 17:19:28,854 WARN [task-result-getter-2] scheduler.TaskSetManager (Logging.scala...原创 2018-07-30 18:00:26 · 24774 阅读 · 3 评论 -
hive报错: Specified key was too long; max key length is 767 bytes(详解!!!)
还是一句老话,菜鸡一只,如果有说错的地方,请大家海涵!!~也希望能够批评指出,让小弟能够学习到更多东西~废话不多说,报错如下:DataNucleus.Datastore (Log4JLogger.java:error(115)) - An exception was thrown while adding/validating class(es) : Specified key was too l...原创 2018-03-02 17:48:00 · 10718 阅读 · 6 评论 -
【Hive】hive加载json数据和解析json(一)
事先说明,本人菜鸡一只,如果有说错的地方,还请大家指出批评,多多包涵~本文有后续哦!本文主要还是介绍hive中函数的解析json的函数get_json_object()和json_tuple()的使用,如果想通过serde直接加载hive数据,请看第二篇!【Hive】hive加载json数据和解析json(二):https://blog.csdn.net/lsr40/articl...原创 2018-02-28 13:27:58 · 61770 阅读 · 0 评论 -
hive-site.xml修改之后不生效与一些beeline,hiveserver2的报错
hive启动时却不加载自己修改的hive-site.xml等配置文件的问题。它总是加载默认的配置文件,很烦。。。。最开始要搭建hive必须先修改hive默认的参数,就是添加hive-site.xml并且在里面声明数据库的选择,其实就jdbc的四要素:javax.jdo.option.ConnectionURLjdbc:mysql://hadoop.beifeng.com:3原创 2017-09-19 09:13:58 · 10139 阅读 · 0 评论