自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数仓---建模

1

2021-11-02 11:09:56 158

原创 使用sqoop从mysql导入到hive一张名叫warehouse的表引发的问题

今天,我使用sqoop导入数据的时候遇到一个很奇怪的问题,我将mysql一张名为warehouse的表导入到hive的时候,出现如下报错提示我没有hdfs改路径的写入权限?但是正常情况我写入hdfs的路径不应该是这个路径啊,难道是日志打错了?于是我重试了几次,发现还是不行;难道是sqoop出了问题?但是我导其他表也没有问题啊;那只能是这个表有问题了,表名为warehouse,我们hive的库也叫warehouse,可能是有什么冲突? 然后我换了种方式,使用sqoop导入hdfs的方式,指定导入.

2021-10-28 13:49:17 193

原创 hive读时模式

hive 加载数据的时候不会对数据进行校验,查询的时候如果发现数据类型不对会显示为null

2021-10-14 17:09:03 173

原创 hive创建永久自定义函数不生效的问题

hive自定义函数可以帮我们轻松解决很多sql不好实现的逻辑,所以偶然写写自定义函数还是很有用的. 但是我最近遇到一个问题,就是我函数写好了,使用CREATE FUNCTION default.temporary_time_combine as 'com.saas.ylz.bigdata.udf.TemporaryTimeCombine'using jar 'hdfs:///hive/udf/temperature-time-combiner-1.0-SNAPSHOT.jar' 语句创建函数,函数创建成功

2021-10-12 10:24:37 1361

原创 hive with as 和直接创建临时表的性能比较;

我之前的理解是使用with 时,就是相当于把字查询给提取出来,这样代码可读性更高,并且该子查询可以重复使用,并且相较于直接创建临时表不会落盘,这样效率会.......直到有一次,我优化一个大job,发现这个大job全是用创建临时表的方式保存中间结果,我想着这要是全部改成with的方式那效率还不提高好多???我立马开干,三下五除二就全部换成with的语句了,结果执行的时候发现居然执行不动!!原本一个小时的任务执行完成的任务,我修改了执行2.2个小时都还没执行成功!!我赶紧去yarn上看日志,发现新job生成的

2021-10-11 22:31:54 6416

原创 HIVE sparkSQL sum()over()开窗函数的效率问题

开窗函数大家都用过,其中sum()的开窗函数我们可以很好的用来求一些累加的值,我之前一直认为开窗函数的执行效率都差不多,然而有一次我使用sum开窗函数计算某个车辆每个时间累积行驶了多少距离,由于有定位数据,数据量比较大,300万左右,结果程序执行了超过一个小时都不出结果,然后我用排除法把sum换成row_number,结果秒出结果.我才发现sum的不同...

2021-09-29 16:38:00 1901 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除