大数据开发
文章平均质量分 58
tanhaidi
这个作者很懒,什么都没留下…
展开
-
hive substring_index()用法
前几天遇到这么一个需求,有一个字符串,表示用户在网站的访问路径,例如“home>itemdetail>cart>order”格式,当用户访问路径不足8步的时候,返回这个字符串,当访问路径大于8步的时候返回前8步路径。实现的时候,我首先就想到了substring()函数,但转念一想,我需要截取第8个“>”字符前面的数据,那么我必须要知道这个>在字符串中的位置,中间考虑过几个函数都搞不定,比如instr()只能知道第一个“>”的位置;find_in_set()也不行,跟这个原创 2022-01-28 16:19:04 · 7995 阅读 · 4 评论 -
Timed out waiting for Remote Spark Driver to connect to HiveServer2报错解决办法
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-11-26 15:54:56 · 3351 阅读 · 2 评论 -
hive sql面试题:连续休假超过10天的员工
之前遇到的一个面试题,跟大家分享一下。对接公司人力资源部门,需要统计连续休假超过10天的员工。表名:xiujia字段名: user_id , start_dt , end_dt员工id 休假开始日期 休假结束期这里连续休假可能有以下几种情形:(1) 从周一休息到下周五,去掉中间的周六日,一共休假10天。(2)员工每次请假一天,连续请10次,一共休假10天。(这里包括连续请假N次的情形)(3)员工从周一请假到周五,然后又从下周一请到下周五,两次请假一共10天。针对这3中情况,我们可以原创 2020-10-29 17:43:22 · 802 阅读 · 0 评论 -
hive top10 sql简化实现方法
最近接手一个项目,好多报表都要去top10展示,在写sql的时候发现需要一层套一层,一层套一层,至少需要套三层以上;然后就在想,这个sql能不能精简一下?看着更加清晰一些呢?我们来看一个简单的例子,表数据如下:需求是看城市用户数的top10按正常的思路,是先按城市分组统计人数,然后用开窗函数做排名,再然后取排名前10。通过这个思路写出的sqlSELECT cityname ,cnt FROM ( SELECT cityname ,cnt ,row_n原创 2020-07-15 17:16:28 · 2195 阅读 · 0 评论 -
hive中用nvl判断timestamp类型的数据
hive中用nvl判断timestamp类型的数据,如果字段为空,默认值该怎么写呢?我们可以用TIMESTAMP(‘1970-01-01’,‘yyyy-MM-dd’),给一个timestamp类型的默认值。完整语法:nvl(field_name,TIMESTAMP(‘1970-01-01’,‘yyyy-MM-dd’)),’"’...原创 2020-03-06 09:55:43 · 1050 阅读 · 0 评论 -
spark sql dataframe字符串类型的列拼接一个常量字符串的方法
spark示例数据://spark-2.3.0-bin-hadoop2.7//examples//src//main//resources//people.json数据内容:{“name”:“Michael”}{“name”:“Andy”, “age”:30}{“name”:“Justin”, “age”:19}创建dataframe:val sparksession = SparkS...原创 2019-12-24 16:49:55 · 5931 阅读 · 0 评论 -
hive中表关联时null和‘’的问题
在hive开发过程中,我们经常会有这样的疑问,a表关联b表,我想找到a表中的键在b表中不存在的数据,这时候用a表左连b表,然后where条件中加入b.flied is null。 但是细心的人会有这样的疑问,两个表关联之后,如果关联不上,b表字段的返回值真的都是null吗???下面我们来做个测试,测试表tmp.tmp_citys,表结构如下:表中的数据:sql:selectt1.ci...原创 2019-03-29 13:53:48 · 4559 阅读 · 2 评论 -
java读取文本文件
最近做了一个数据抽取任务,需要把表名放在一个文本中当配置表,然后读取文本中的信息,用每行的表名去输出库中找元数据信息。这个任务用到了几个java知识点: io流、操作mysql数据库、json串解析。感觉做数据仓库的人员,这三个知识点应该是必须掌握的,因为用java的时候比较少,本人对java比较感兴趣但是又不精通,自己照着视频学了点,但又不系统。每次用到的时候有点捉急,现在把一些总结写下来,之后...原创 2019-07-03 16:39:55 · 239 阅读 · 1 评论