大数据
程序猿小柒
从小白开始,一步一步进阶
展开
-
hivesql之从订单明细表(order_detail)中查询累积销售件数高于其所属品类平均数的商品
从订单明细表(order_detail)中查询累积销售件数高于其所属品类平均数的商品原创 2024-09-18 10:53:12 · 539 阅读 · 0 评论 -
hivesql之从订单明细表(order_detail)中统计出每种商品销售件数最多的日期及当日销量
从订单明细表(order_detail)中统计出每种商品销售件数最多的日期及当日销量。如果有同一商品多日销量并列的情况,取其中的最小日期。原创 2024-09-18 10:45:57 · 375 阅读 · 0 评论 -
hivesql之统计每天新增用户数
从用户登录明细表中查询每天的新增用户数,若一个用户在某天登录了,且在这一天之前没登录过,则认为该用户为这一天的新增用户原创 2024-09-18 10:42:10 · 321 阅读 · 0 评论 -
hivesql之统计商品的复购率
复购率指用户在一段时间内对某商品的重复购买比例,复购率越大,则反映出消费者对品牌的忠诚度就越高,也叫回头率。指包含最大日期(以订单详情表 (order_detail) 中最后的日期)在内的近90天。此处定义: 某商品复购率 = 近90天内购买它至少两次的人数 ÷ 购买它的总人数。 结果中复购率保留2位小数,并按复购率倒序、商品ID升序排序。原创 2024-09-15 14:30:00 · 304 阅读 · 0 评论 -
hivesql之连续签到领金币数
从用户登录就明细表中求出每个用户金币总数,并按照金币总数倒序排序。原创 2024-09-14 10:49:59 · 341 阅读 · 0 评论 -
hivesql之统计活跃间隔对用户分级结果
从用户登录明细表中的用户登录时间给各用户分级,求出各等级用户的人数。原创 2024-09-14 10:43:17 · 250 阅读 · 0 评论 -
hivesql之统计2023年期间每个商品总收藏量和购买量
统计2023年期间,每个商品总收藏量和购买量原创 2024-09-14 10:35:45 · 283 阅读 · 0 评论 -
mysql求一列的中位数
mysql求中位数原创 2021-10-12 15:09:42 · 298 阅读 · 0 评论 -
Spark调度系统流程
Spark调度系统原创 2021-09-29 15:08:32 · 188 阅读 · 0 评论 -
hivesql之求出同一商品在2022年和2023年中同一个月份的售卖情况对比
求出同一商品在2022年和2023年中同一个月份的售卖情况对比。原创 2024-09-13 11:26:41 · 542 阅读 · 0 评论 -
hivesql之输出这个用户的 id 及第一次成功购买手机的日期和最后一次成功购买手机的日期,以及购买手机成功的次数
输出这个用户的 user_id 及第一次成功购买手机的日期和第二次成功购买手机的日期,以及购买手机的次数原创 2024-09-13 11:14:03 · 455 阅读 · 0 评论 -
hivesql之从订单详情表 (order_detail) 中,求出商品连续售卖的时间区间
从订单详情表 (order_detail) 中,求出商品连续售卖的时间区间原创 2024-09-13 11:00:10 · 400 阅读 · 0 评论 -
hivesql之从订单信息表 (order_info) 中统计每个用户截止到某个下单日期的累积消费金额,以及每个用户在其每个下单日期的 VIP 等级
从订单信息表 (order_info) 中统计每个用户截止到某个下单日期的累积消费金额,以及每个用户在其每个下单日期的 VIP 等级。原创 2024-09-12 11:20:31 · 348 阅读 · 1 评论 -
hivesql之从订单明细表 (order_detail) 统计各品类销售出的商品种类及累计销量数最多的商品
统计各品类销售出的商品种类及累积销量数最多的商品。原创 2024-09-12 11:14:47 · 321 阅读 · 0 评论 -
hivesql之查询订单信息表 (order_info) 中最少连续 3 天下单的用户 id
查询订单信息表 (order_info) 中最少连续 3 天下单的用户 id原创 2024-09-12 11:04:49 · 188 阅读 · 0 评论 -
hivesql之统计每个品牌的优惠总天数
现要求统计每个品牌的优惠总天数,若某个品牌在同一天有多个优惠活动,则只按一天计算。原创 2024-09-12 10:30:50 · 356 阅读 · 0 评论 -
hivesql之查询订单明细表中销量排名第二的商品ID
查询订单明细表(order_detail)中销量(下单件数)排名第二的商品id,如果不存在返回null,如果存在多个排名第二的商品则需要全部返回。原创 2024-09-12 10:13:50 · 206 阅读 · 0 评论 -
Spark、Storm、Flink横向对比
一. 概述大数据生态圈大多数技术都是master-slave架构,Spark、Storm、Flink无一例外都是这种架构,Spark是目前批计算的主流,Flink目前逐渐取代Storm成为了流式计算的主流,Storm逐渐被市场淘汰,但是不得不说Storm也是一个非常优秀的流式计算框架,其实时性非常好。在分布式计算框架中,角色即进程,任务通常是以线程的形式跑在计算层的JVM进程中,但是每个框架中是有差异的,以下针对Spark/Storm/Flink三大主流计算框架进行对比。原创 2021-11-19 12:01:15 · 5487 阅读 · 0 评论