自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_40625962的博客

原创多窗口播放时长去重方案

在Web端视频、直播、在线教育等场景中，用户可能同时打开多个浏览器窗口或标签页观看同一内容（如直播课程、长视频等）。这种情况下，传统的播放日志统计方式（如直接累加各窗口的播放时长）会导致重复计算，影响数据分析的准确性。例如：用户A在Chrome的两个标签页同时播放同一个视频，每个窗口记录播放10分钟，简单累加会统计为20分钟，但实际观看时长应为10分钟。用户B在PC端和手机端同时观看直播，若不做去重，会导致时长数据计算偏高,甚至极端情况下,会出现用户当天播放时长>24h的情况本篇内容源于真实案例。

2025-05-25 18:04:43 661

原创两个拉链表拼接（关联）实践

在数据仓库开发中，拉链表常用于记录维度属性的历史变更轨迹。当业务存在以下需求时，需要将两张拉链表拼接为一张统一的拉链表(拉链表的使用场景、创建/使用方式不在此展开讲)1. 多维度属性协同分析业务场景某个业务实体（如部门、用户、商品）存在多个独立维护的维度属性（如部门状态、部门地理位置），且需分析这些属性随时间变化的联合影响。例如：分析某部门状态（）和其所在地区政策变化（另一张表的属性）的关联性，需同时获取两个属性的历史时间线。原痛点。

2025-04-17 13:59:23 1071

原创一次大表join倾斜优化实战

在短视频/直播平台的数仓建设中，大表关联（JOIN）是常见的计算场景。1、数据分布不均衡：头部热门视频（如爆款视频）的播放记录可能占据总数据的80%以上，引发关联时的热点Key问题；2、资源浪费：部分Reduce节点因处理超量数据长时间未完成，其他节点空闲；3、作业超时风险：倾斜导致任务卡在99%进度，甚至因单个节点OOM而失败。传统方案（如直接增加Reduce并行度、mapjoin等）效果有限，而随机前缀优化法通过改造关联键分布，结合分治思想可有效解决倾斜问题。

2025-04-15 18:43:08 876

原创 Kylin集群部署及基本架构简介

一、基本架构及原理实现:利用hadoop中MapReduce框架对hive表中的数据进行预计算，将预计算结果缓存至Hbase中，解决TB级数据分析需求原理架构参考：https://www.cnblogs.com/tgzhu/p/6113334.html 解决问题：解决海量数据上进行快速查询的难题解决方案：对于超大数据集的复杂查询，由于现场计算需要花费较长时间，根据空间换时间的原...

2019-10-12 17:18:48 1262

原创 zeppelin 基于yarn-cluster模式环境部署

一、环境: Spark-2.2.1-bin-hadoop2.7、zeppelin-0.8.1-bin-all、hadoop及hive环境二、步骤: 1、下载zeppelin0.8.0及以上版本(支持yarn-cluster模式)，下载地址： https://zeppelin.apache.org/download.htmlzeppelin-0.8.1-bin-all.tgz (1)...

2019-10-12 16:44:15 1446

原创 mysql触发器+mysqlduf执行系统命令

背景：文件上传至hdfs，上传成功后插将hdfs文件目录存至mysql数据库，当文件目录成功插入mysql后，触发系统执行shell脚本，将hdfs文件建立solr索引一、lib_mysqludf_sys相关配置 1、安装mysql (见mysql安装文档) 2、下载lib_mysqludf_sys-master.zip并解压 unziplib_mysqludf_sys-master....

2019-09-11 21:44:32 1095 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

预言家请睁眼

博客等级

码龄8年

6
原创

58
点赞

44
收藏

15
粉丝

关注

私信

热门文章

分类专栏

大数据开发 3篇
大数据 2篇
zeppelin 1篇
mysql 1篇

最新评论

mysql触发器+mysqlduf执行系统命令
预言家请睁眼: 哈哈，都是坑里面爬出来的
mysql触发器+mysqlduf执行系统命令
薙七: 真是太感谢了, 困扰了我两天,一顿搭建后发现docker启动的mysql可以通过sys_eval调用curl,但是linux直接启动的mysql 通过sys_eval调用就什么都不显示也并没有调用成功 ,但是 sys_eval('id') 、和sys_eval('echo hello') 是可以的, （跟 Linux系统安全应用程序有关）看到这句话后改为Disabled后重新启动就好使了

提示

确定要删除当前文章？

取消删除