为什么 Redis 快? 为什么redis 是单线程的? - 云+社区 - 腾讯云阿里P8架构师谈:Redis为什么是单线程、及高并发快的3大原因详解 - 知乎Redis为什么是单线程?为什么有如此高的性能? - 掘金分类: Redis | Kaito's Blog...
Git 解冲突 1:怎样最大程度避免冲突?如果和别人改的不是同一个文件,最好先 git pull 再 git add如果要改同一个文件,那么需求拆解、分工是否明确?实在不行再一起解冲突2:解冲突步骤1:git fetch origin2:git rebase origin/master 或者 git pull --rebase(此过程如遇到坑,需要 checkout 所有的未提交文件)3:然后打开冲突文件:conf/global.yaml修改冲突处,其实就是删掉旧的东西4:git
Spark 多维分析 grouping sets / with cube / with rollup 多维分析问题Spark SQL 的 GROUP BY 子句 | Spark SQL 教程 - 盖若https://www.imooc.com/article/271662
指标体系相关知识 带着问题看博客1:什么是指标体系?2:指标的分类?3:为什么需要指标体系?4:指标体系指标分级?5:指标体系建模方法?6:怎样结合落地业务场景?7:带来实际收益?综述文章:数据分析指标体系综述 - 知乎快手的指标体系落地方案:快手如何搭建一个好的数据指标体系?_浪尖聊大数据-浪尖的博客-CSDN博客搭建一个好的指标体系方法:一文讲透,关于搭建指标体系,整理的重要知识点都在这里了_帆软商业智能技术的博客-CSDN博客...
CountDistinct 去重实现原理 Hive / Spark / Kylin 中 count distinct 的实现原理:重点关注其中的 多维度 count distinct 的实现方式大数据SQL COUNT DISTINCT实现原理在 Spark 中的优化:1:两阶段聚合(spark)2:bitmap(UDF包装RoaringBitmap,1. 在预聚合时将COUNT DISTINCT字段值写入Bitmap,并将Bitmap序列化成Binary类型字段保存。2. 在重聚合时,读取并反序列化Bitmap字段,...
维度建模优缺点 维度建模的优缺点_aijiudu的博客-CSDN博客_维度建模的优缺点【数据仓库】维度建模的优缺点_大跃ET的博客-CSDN博客_维度建模优缺点最重要的总结:维度建模很难反向推导,即难以根据维度模型反推回一般关系模型。万一模型有错误,整个数据仓库就不可信赖,需要从业务数据库重新加载,而这个又耗时又影响业务系统,还有可能丢失历史数据。所以底层一般还用传统数仓,一般就是没有太多逻辑转换的;维度建模用于数据集市。...
小文件带来的问题及解决方案 小文件带来的问题:为啥集群小文件治理那么重要,你真的懂吗?_涤生大数据的博客-CSDN博客1:对 NameNode 的影响 -> 元数据管理2:对 DataNode 的影响 -> 存储效率、访问性能3:对计算的影响 -> 计算性能存储系统衡量指标:1:IOPS(Input/Output Per Second)单位时间内系统能处理的I/O请求数量2:数据吞吐量解决方案:1:从源头避免小文件问题repartition/coalesce 和...
Bitmap 详析 用处:排序、去重、查找优点:时间和空间复杂度会大幅下降缺点:1、时间和空间依赖最大数字,数据密集才有优势。2、数据不能有重复#私藏项目实操分享#【难点攻克技术系列】「海量数据计算系列」如何使用BitMap在海量数据中对相应的进行去重、查找和排序_李浩宇/Alex的技术博客_51CTO博客排序时的空间时间复杂度BitMap算法_-柚子皮-的博客-CSDN博客_bitmap...
Doris 物化视图 为什么会有物化视图?主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询的需求。物化视图的定义:查询结果预先存储起来的特殊的表Doris 的物化视图特殊之处:用户的查询会根据规则自动匹配到最优的物化视图怎样选择最优:根据前缀索引是否能匹配到,以及聚合程度的高低来选出一个最优的物化视图。最后自动改写 SQL细节:Doris核心功能介绍 -- 数据模型和物化视图、四、Doris物化视图 - 天戈朱 - 博客园
Doris 优化方法 最全的Apache Doris的性能优化实战技巧(收藏版)|uniq|apache|视图|数据量_网易订阅主要从三个方面考虑:1:数据模型的选择、分区及分桶设计、索引选择。2:物化视图3:SQL 本身优化
拉链表断链、交叉链判断及处理方式 仓库拉链算法的数据恢复机制(重跑中间任意一天保证数据的准确完整性) - 极客分享 (geek-share.com)系列|数仓实践之『拉链表』拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史,记录一个事务...-雪球 (xueqiu.com)...
数仓的极致分层 一些基础的层级:(92条消息) 数据仓库--数据分层(ETL、ODS、DW、APP、DIM)_lcl_bigdata的博客-CSDN博客_dim层针对不同业务场景的分层:最全面的数仓分层剖析,一文搞定企业数仓分层 | 人人都是产品经理 (woshipm.com)理解DWT和STG两种比较常见也少见的层级有实际举例的层级介绍:(92条消息) 数仓分层(ODS、DWD、DWS、DWT、ADS)和数仓建模_billows9297的博客-CSDN博客_dws dwt电商DWT
数据工作的流程和规范性 数据开发不规范,贪图快和简单方便,其实是在伤害数据仓库的正确性和可维护性。20211229-基础数据开发流程 - 简书 (jianshu.com)数据开发流程 - 巨婴宝宝 - 博客园 (cnblogs.com)(58条消息) 如何避免数仓模型“烟囱式”建设_大数据星球-浪尖-CSDN博客数仓开发应避免的10个陷阱 - 知乎 (zhihu.com)建设数仓的血泪教训!(建议收藏) - 知乎 (zhihu.com)数仓治理之数据任务重构实践 - 开发者头条 (toutiao
大数据压缩算法总结 1:最主流的四种gzip 压缩比较高,不可 split (行文件),hadoop 自带 (apache 协议)lzo 支持 split,但需要额外的索引文件,自定安装( GPL 协议)snappy 压缩速度快,压缩比一般,不可 split (行文件),自定安装( GPL 协议)bzip 压缩比最高,但是压缩慢,自定安装压缩格式gzip/snappy/lzo/bzip2 比较与总结_zzhongcy的博客-CSDN博客_lzo压缩比例1. Data Modeling in Hadoop
大表 join 大表的思路 参考 OLTP 的优化方式:1:限制输入的行 (care 条件要写全)2:限制输入的列 (无用的列不要 select )3:手动先分区再 join4:采用 map 端的预聚合 map_side join5:抽取倾斜 key 然后加随机前缀处理,倍数处理 B ,再 join,然后结果再 union 回去。大数据开发实战:Hive优化实战3-大表join大表优化 - shaomine - 博客园SQL优化技巧之超级大表和超级大表的连接优化 - 知乎...
Spark 3 新特性 Spark 3.0.0正式版发布,开发近两年新增了哪些特性? - 大数据 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。介绍较详细。介绍了 AQE 和 DPP 的来源背景:基于动态统计信息的优化Spark3.0 新特性(部分) - 知乎介绍了与数仓模型之间的联系:基于运行时推断的信息来进一步进行分区裁剪。这在星型模型中很常见,星型模型是由一个或多个并且引用了任意
为什么块大小为128M? (70条消息) 一篇讲懂为什么HDFS文件块(block)大小设定为128M_攻城狮Kevin-CSDN博客_hdfs块大小为什么是128mHDFS文件块大小为什么是128M?(重点)_Sun's Blog-CSDN博客_hdfs块大小为什么是128m最佳传输损耗理论...
数仓如何优化 调度优化(生产测试环境分离、任务优先级划分、提前跑、减少层级依赖)模型优化 (模型选择、拆表、合表、中间层建设、合理分区、拉链表)计算优化(减少输入数据、避免数据倾斜)同步优化(合理参数设置)大数据数仓建设性能优化方案 - 简书 (jianshu.com)调度、模型、同步与任务——阿里云大数据数仓建设性能优化方案 - 知乎 (zhihu.com)...
分位数计算 什么是分位数?approx_percentile 聚合函数 - Azure Databricks | Microsoft Docs如何通俗地理解分位数? - 知乎 (zhihu.com)简单理解分位数就是一个从大到小排列的队伍中,用几分之几的形式来表达你当前所处的位置。比如在中间,就是1/2分位数,其他再比如1/4分位数,2/5分位数等等。函数表达式:Functions - Spark SQL, Built-in Functions (apache.org)可以直接解决