实战
文章平均质量分 84
治愈爱吃肉
一只正在猥琐发育的程序员。。。。
展开
-
Opentsdb On Hbase 设计 region 预分区
Opentsdb On Hbase 设计 region 预分区 如何查看region读写是否分布均匀 方法一: 通过hbase webui页面 a) 查看opentsdb.conf 中 指定的存储数据点的HBase表名 由此得知表名是tsdb b) 通过hbase ui 查看数据分布 hbase版本不同查看方式会有出路 方法二:通过查看hdfs目录结构 c) 查看hdfs目录下文件大小是否平衡 如何设计hbase rowkey Opentsdb源码中 rowkey生成 插入数原创 2022-02-15 08:57:25 · 463 阅读 · 0 评论 -
带你学习Hive的多维立方体
多维立方体 概述: 实际生产中,各种指标的报表统计,往往都会设计到多维分析,比如: 统计日活数量,日会话数量,日会话次数,日回头访问数,日新增,日用户平均访问时长,访问深度等,都可以从以下纬度来分析: 时间段 省市区等地域纬度 设备类型 操作系统 App版本 App下载安装渠道 而数据分析师,可能会提出各种各样的"纬度组合"下的指标统计需求 省: 日活总数 省、市:日活总数 手机型号,日活总数 省,手机型号,日活总数 如果上述纬度分析需求,都逐个开发计算sql(逐个去group by 聚合)原创 2021-05-09 15:18:30 · 334 阅读 · 0 评论 -
Spark学习(一)
文章目录RDD产生的条件(3种)Spark的弹性体现持久化和checkpoint的区别Spark集群管理器Spark核心概念介绍Master:Worker:Spark中`client`和`cluster`提交的区别Standalone-ClientStandalone-ClusterYarn-ClientYarn-clusterSpark资源调度和任务调度的流程资源调度:任务调度:粗粒度资源申请和细粒度资源申请粗粒度资源申请(代表Spark)细粒度资源申请(代表MR) RDD产生的条件(3种) 从集合中创原创 2021-01-25 15:35:55 · 278 阅读 · 2 评论 -
用户回复频率控制Redis
Redis 项目常见场景 需求: 用户回复频率控制 项目的社区功能里,不可避免的总是会遇到垃圾内容,一觉醒来你会发现首页突然会被某些恶意的帖子和广告刷屏了,如果不采取适当的机制来控制就会导致用户体验受到严重的影响 控制广告垃圾贴的策略很多,高级一点的可以通过AI,最简单的方式是通过关键词扫描,还有比较常用的一种方式是频率控制,限制单个用户内容的生产速度,不同等级的用户会有不同的频率控制参数 使用Redis来实现频率控制(青铜1小时3贴 白银1小时5贴 黄金1小时8贴) 方案一: 第一步:记录某个IP访原创 2020-08-22 11:08:38 · 186 阅读 · 0 评论