自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 hive substring_index()用法

前几天遇到这么一个需求,有一个字符串,表示用户在网站的访问路径,例如“home>itemdetail>cart>order”格式,当用户访问路径不足8步的时候,返回这个字符串,当访问路径大于8步的时候返回前8步路径。实现的时候,我首先就想到了substring()函数,但转念一想,我需要截取第8个“>”字符前面的数据,那么我必须要知道这个>在字符串中的位置,中间考虑过几个函数都搞不定,比如instr()只能知道第一个“>”的位置;find_in_set()也不行,跟这个

2022-01-28 16:19:04 7804 4

原创 Timed out waiting for Remote Spark Driver to connect to HiveServer2报错解决办法

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-11-26 15:54:56 3277 2

原创 hive sql面试题:连续休假超过10天的员工

之前遇到的一个面试题,跟大家分享一下。对接公司人力资源部门,需要统计连续休假超过10天的员工。表名:xiujia字段名: user_id , start_dt , end_dt员工id 休假开始日期 休假结束期这里连续休假可能有以下几种情形:(1) 从周一休息到下周五,去掉中间的周六日,一共休假10天。(2)员工每次请假一天,连续请10次,一共休假10天。(这里包括连续请假N次的情形)(3)员工从周一请假到周五,然后又从下周一请到下周五,两次请假一共10天。针对这3中情况,我们可以

2020-10-29 17:43:22 753

原创 趣谈数据仓库

网上看数据仓库的知识,或者看【数据仓库工具箱】这种书籍,总感觉晦涩难懂,如果我没搞过数据仓库,我根本不知道在写什么,所以在想能不能用通俗易懂的语言,彻底搞懂数据仓库是干什么的,数据仓库的分层,数据仓库建模方法这些概念,下面通过吃来大概讲一讲有点哲学意味的数据仓库。 拿吃的举例子,业务系统就好比一个个的大农场,每个农场都有各种各样好吃的,ods是一个司机,他开着大卡车,把食物从各个农场拉回来,放在的大库房里;dwd是个分拣员,他先到大库房里,把那些坏掉的蔬菜、歪瓜裂枣、破皮的鸡蛋都挑出去,完事之后...

2020-10-16 16:02:20 124

原创 hive top10 sql简化实现方法

最近接手一个项目,好多报表都要去top10展示,在写sql的时候发现需要一层套一层,一层套一层,至少需要套三层以上;然后就在想,这个sql能不能精简一下?看着更加清晰一些呢?我们来看一个简单的例子,表数据如下:需求是看城市用户数的top10按正常的思路,是先按城市分组统计人数,然后用开窗函数做排名,再然后取排名前10。通过这个思路写出的sqlSELECT cityname ,cnt FROM ( SELECT cityname ,cnt ,row_n

2020-07-15 17:16:28 2166

原创 mysql实现row_number()、rank()、dense_rank()函数功能

最近部门换了一款BI工具,因为要根据筛选条件动态选取TOP10、实现排序排名功能,需要在BI工具中写mysql数据库的脚本,因为要实现ow_number()、rank()、dense_rank()函数功能,看了网上的一些资料,感觉脚本和数据示例有点出入,在这里根据一个简单的临时表做一下总结。临时表明:tmp_ss示例数据:可以看到store_name是有重复值的,可以用这个字段的排名来看dense_rank()、rank()的实现。(1) row_number()实现方法SELECT stor

2020-06-03 10:32:00 764

原创 hive中用nvl判断timestamp类型的数据

hive中用nvl判断timestamp类型的数据,如果字段为空,默认值该怎么写呢?我们可以用TIMESTAMP(‘1970-01-01’,‘yyyy-MM-dd’),给一个timestamp类型的默认值。完整语法:nvl(field_name,TIMESTAMP(‘1970-01-01’,‘yyyy-MM-dd’)),’"’...

2020-03-06 09:55:43 1029

原创 excel模板利用java自动生成hive建表语句、查询语句小程序

在日常数据开发过程中,会经常需要根据数据模型写建表语句,或者在表数据探索时写查询语句,每次写建表语句都会用几分钟的时间,于是打算做个excel模板,把表字段、表分区、表名写在里面,通过程序自动生成建表语句、查询语句。我的上传资源有打包好的程序,如果嫌麻烦可以直接下载使用。下面说一下具体步骤:(1)定制excel模板A到C列是字段名,D到F列是分区列,H1是表英文名,H2是表中文名。文档...

2019-12-27 17:36:14 717

原创 spark sql dataframe字符串类型的列拼接一个常量字符串的方法

spark示例数据://spark-2.3.0-bin-hadoop2.7//examples//src//main//resources//people.json数据内容:{“name”:“Michael”}{“name”:“Andy”, “age”:30}{“name”:“Justin”, “age”:19}创建dataframe:val sparksession = SparkS...

2019-12-24 16:49:55 5881

原创 hive和spark在分组时用到字符串截取函数substr和substring时的区别

这篇文章主要以日期表为例子,讨论hive和spark在处理分组语句时的异同点,以及substr和substring函数的区别。我们在写hive sql做数据查询时,我们经常会遇到分组的字段需要截取字符串或者处理一下,这时候我们会有一个疑问,我们是要用这个截取字符串的别名做分组呢?还是用截取串的那个函数做分组呢?下面我有以一个日期表为例,来讨论一下这个问题。表名: d_cod_dt表中数据:...

2019-12-04 18:57:10 3742

原创 java读取文本文件

最近做了一个数据抽取任务,需要把表名放在一个文本中当配置表,然后读取文本中的信息,用每行的表名去输出库中找元数据信息。这个任务用到了几个java知识点: io流、操作mysql数据库、json串解析。感觉做数据仓库的人员,这三个知识点应该是必须掌握的,因为用java的时候比较少,本人对java比较感兴趣但是又不精通,自己照着视频学了点,但又不系统。每次用到的时候有点捉急,现在把一些总结写下来,之后...

2019-07-03 16:39:55 193 1

原创 hive中表关联时null和‘’的问题

在hive开发过程中,我们经常会有这样的疑问,a表关联b表,我想找到a表中的键在b表中不存在的数据,这时候用a表左连b表,然后where条件中加入b.flied is null。 但是细心的人会有这样的疑问,两个表关联之后,如果关联不上,b表字段的返回值真的都是null吗???下面我们来做个测试,测试表tmp.tmp_citys,表结构如下:表中的数据:sql:selectt1.ci...

2019-03-29 13:53:48 4506 2

自动生成hive建表语句查询语句程序及源码.rar

程序功能: 在excel模板中填写自己表的字段英文名、字段类型、字段中文名、分区英文名、分区数据类型、分区中文名、表英文名、表中文名,自动生成建表语句和查询语句,提高日常数据效率。 前提:本机安装java1.7,并且配置了环境变量。

2019-12-27

jxl资源包.rar

java中通过jxl写excel文件并且设置excel字体样式、表格等。 支持excel97-2003工作簿格式。

2019-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除