自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 列转行-posexplode多列对应转行

现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。二、函数介绍splitposexplode三、列转行原始数据中order_list中的数据,与distance_list、payment_list内的数据,一一对应,请将数据拆解出rider_id、order_id,distance,payment,其中distance和payment为对应订单id的距离和配送费。期望结果1、posexplode函数实现带位置的炸裂我们通过posexplode

2024-09-08 18:58:05 837

原创 列转行-explode_outer及lateral view outer

现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。二、函数介绍explodesplitexplode_outer三、列转行将骑手及其订单转换成订单粒度,每单一行记录。需要把骑手r004数据进行展示期望结果1、lateral view outer explode方案先将字符串通过split函数转换成array,然后使用explode炸开,即可得到最终结果。这里我们不在使用lateral view 而是使用lateral view outer

2024-09-08 18:56:55 497

原创 列转行-lateral view explode列转行

现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。二、函数介绍explodesplit三、列转行将骑手及其订单转换成订单粒度,每单一行记录。期望结果1、解决方案先将字符串通过split函数转换成array,然后使用explode炸开,即可得到最终结果。执行结果2、注意由于我们使用了lateral view横向视图与explode结合炸裂,我们会发现 骑手r004因为其order_list为空没有出现在最终结果中。原因为在explode处

2024-09-05 22:31:13 493

原创 列转行-多列转多行(横表变竖表)

sumcase​。

2024-09-05 22:30:03 299

原创 多行转多列

sumcase。

2024-09-04 23:54:33 250

原创 多列一一对应

有配送订单表记录骑手配送的物品类型、送达时间、顾客id、配送举例及配送费。二、函数介绍collect_listconcat_wstransformsplitsort_array三、有序行转列根据配送订单记录表,查询出骑手id,配送订单id列表、距离列表、配送费列表,要求三列中的数据按照送达时间顺序,且一一对应;期望结果分析首先要求按照送达时间排序,且要求多列一一对应,所以我们把所有的数据拼接到一起,按照时间排序后再进行拆分。使用concat_ws将时间字段与其他需要字段进行拼接,因为需

2024-09-04 23:53:26 411

原创 有序行转列

transform(expr, func) - 使用函数对数组中的元素进行转换。

2024-09-03 22:56:00 1140

原创 简单行转列

collect_list(expr) - 收集并返回一个非唯一元素的列表[1,2,1]注意该函数是非确定性的,因为收集结果的顺序取决于行的顺序,这在经过shuffle之后可能是不确定的。collect_set(expr) - 收集并返回一个唯一元素的集合。[1,2]注意该函数是非确定性的,因为收集结果的顺序取决于行的顺序,这在经过shuffle之后可能是不确定的。sort_array(array[, ascendingOrder]) - 根据数组元素的自然顺序,将输入数组排序为升序或降序。

2024-09-03 22:54:22 817

原创 spark内置函数

spark3.5.1内置函数大全

2024-08-14 22:07:33 710

原创 常见大数据面试SQL-各用户最长的连续登录天数-可间断

现有各用户的登录记录表t_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。

2024-07-09 22:17:40 257

原创 一文搞懂连续问题

我们写过各式各样的连续,今天我们做一个总结。连续问题考察范围可能涉及到:开窗函数,lag函数,row_number(),sum()over(order by) 等各种函数,以及相关数据处理技巧等,无论选取那种方法,连续问题都是相对较为复杂,考察综合能力的一类问题。

2024-07-09 22:16:19 638

原创 常见大数据面试SQL-各用户最长的连续登录天数-可间断

现有各用户的登录记录表t_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。

2024-07-09 07:57:06 414

原创 常见大数据面试SQL-查询每个学科第三名的学生的学科成绩总成绩及总排名

有学生成绩表,包含学生姓名、学科、成绩三个字段,请用一条SQL查询出每个学科排名第三名的学生,他的学科成绩、总成绩、以及总排名。

2024-07-09 07:55:12 674

原创 常见大数据面试SQL-查询前2大和前2小用户并有序拼接

有用户账户表,包含年份,用户id和值,请按照年份分组,取出值前两小和前两大对应的用户id,**注意:**需要保持值最小和最大的用户id排首位。

2024-07-04 22:06:09 336

原创 百度大数据面试SQL-连续签到领金币

有用户签到记录表,t_coin_signin,记录用户当天是否完成签到,请计算出每个用户的每个月获得的金币数量;签到领金币规则如下:用户签到获得1金币;如果用户连续签到3天则第三天获得2金币,如果用户连续签到7天则第7天获得5金币;连续签到7天后连续天数重置,每月签到天数重置;

2024-07-04 22:02:26 605

原创 大数据开发SQL面试题50题(含答案)

本文整理了互联网大厂数据开发、数据分析、数仓等数据相关岗位面试过程中经常出现的SQL面试题,并给出了参考答案。涉及了炸裂函数、开窗函数、聚合函数开窗、在线直播人数等 以及这两年各大厂面疯了各种连续问题。

2024-06-22 09:47:27 1427

原创 滴滴大数据面试SQL-取出累计值与1000差值最小的记录

本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。

2024-06-16 17:03:35 683 1

原创 字节跳动大数据面试SQL-共同使用ip用户检测问题

本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。

2024-06-16 17:00:39 338

原创 字节跳动大数据面试SQL-查询最近一笔有效订单

本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。

2024-06-16 16:58:11 414

原创 快手大数据面试SQL-用户中两人一定认识的组合数

本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。

2024-06-16 16:55:14 408

原创 三一重工大数据面试SQL-部门人员数据分析

本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。

2024-06-16 16:50:20 1062

原创 大数据面试SQL042-所有考试科目的成绩都大于对应学科的平均成绩的学生

有学生每科科目成绩,找出所有科目成绩都大于对应学科的平均成绩的学生。

2024-03-02 07:53:37 422

原创 大数据面试SQL043 计算出完成订单数的众数

现有用户订单表,请计算用户完成订单数的众数。

2024-03-02 07:49:52 808

原创 awk-处理文件分组统计,分组求和、取最大最小值,取最大最小记录

一、分组求和并排序1.存在文件groupsum.txt原始数据如下,对下面的文件根据第四列进行分组,并对1,2,3列进行求和。0.2  0.3  0.5    10.3  0.1   0.2   30.4  0.2   0.3   10.2  0.2   0.2    20.3  0.3   0.3    20.3   0.2   0.6   30.1   0.1   0.1   4原始数据如上统...

2018-05-03 16:46:26 6982

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除