- 博客(34)
- 收藏
- 关注
原创 数仓各层级设计总结
维度下沉:数据仓库仍然保留维度表,比如商品维度表,业务经常按照类目进行聚合操作,为减少维度的表关联,提升查询效率,需要把商品的类目属性下沉到事实表中方便业务聚合分析;另外商品id也会冗余在事实表里面,作为关联商品维度表的外键存在,它有对应的维度表,所以它不属于退化维度;维度退化:数据仓库不保留维度表,首先数据量太大,没必要用一张维度表来进行存储,其次没有数据仓库需要的任何数据时,因此退化维度的维度表可以被剔除。
2025-10-03 22:36:40
1091
原创 从0-1建设数据仓库
总线矩阵(Bus Matrix)是一种用于数据仓库构建的理念,它由行和列组成,其中行代表数据仓库中的不同业务过程,列代表不同的维度。通过将不同的业务过程和维度组合在一起,可以构建出一个完整的数据仓库。总线矩阵的组成包括:- 行:代表数据仓库中的不同业务过程。- 列:代表数据仓库中的不同维度。总线矩阵包含业务过程、公共一致性维度。每行代表一个业务过程,每列表示一个公共维度,还包括业务过程与维度间的联系,图中每个叉号表示该业务过程与维度具有关联关系,也就是我们通常说的外键。
2025-10-03 21:52:39
957
原创 Spark的Broadcast Join以及其它的Join策略
当有一张表较小时,我们通常选择 Broadcast Hash Join,这样可以避免 Shuffle 带来的开销,从而提高性能。比如事实表与维表进行JOIN时,由于维表的数据通常会很小,所以可以使用 BHJ 将维表进行 Broadcast。这样可以避免数据Shuffle(在 Spark 中 Shuffle 操作是很耗时的),从而提高 JOIN 的效率。
2025-10-03 20:47:20
1144
原创 hive、spark任务报错或者异常怎么排查以及定位哪段sql
hive引擎会根据shuffle算子把同一个sql划分成多个stage,每个stage都是独立的application运行,这与spark是不同的,spark是多个job复用一个application。
2025-10-03 16:20:37
1219
2
原创 数据治理8-数据治理成熟度与管理
组织数据能力被综合定义为八大一级过程域,其中每个一级过程域又有若干二级过程域来组成, DCMM中通过对每个二级过程域的概念、目标以及功能的定义来标准化组织数据管理的过程。在进行数据 能力评估的过程中,每个一级过程域相互独立,可以独立开展评估,但是,在实际的管理过程中,每个 一级过程域又相互支撑,需要统一全面开展才能完善数据管理体系。数据战略:数据战略规划、数据战略实施、数据战略评估数据治理:数据治理组织、数据制度建设、数据治理沟通数据架构:数据模型、数据分布、数据集成与共享、元数据管理。
2025-10-01 16:54:22
718
原创 数据治理7-企业主数据治理系列
常生产中HDFS上小文件产生是一个很正常的事情,有些甚至是不可避免,比如jar,xml配置文件,tmp临时文件,流式任务等都是小文件的组成部分。当然更多的是因为集群设置不合理,造成一些意料之外的小文件产生。实际公司生产中对于小文件的大小没有一个统一的定义。一般公司集群的blocksize的大小在128/256两者居多。首先小文件大小肯定是要远小于blocksize的文件。一般公司小文件的大小定义如1Mb,8Mb,甚至16Mb,32Mb,64Mb,128Mb更大。
2025-10-01 16:38:31
881
原创 数据治理6-企业数据安全治理
宏观的数据安全主要具有三大要素,通常被称为 CIA 三要素,有时还会加上问责制一同构成 CIA+A 四要素。保密性(Confidentiality):保护数据的私密性,只有获得相应授权才能访问数据。完整性(Integrity):确保所存储的数据能满足业务场景需要,并且数据是可靠的。可用性(Availability):确保具有相应授权的用户能持续访问所需的数据。问责制 (Accountability):界定并划分数据保护、数据治理相关的相关角色,例如数据管理员。
2025-10-01 15:23:37
1030
原创 数据治理5-企业数据质量建设与实战
三个角度,业务、技术、管理数据质量的技术因素数据标准制定的质量问题:数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。
2025-10-01 13:02:08
1117
原创 数据治理4-企业数仓开发标准与规范
使用一致的数据指标,避免一些因为信息差导致的沟通工作,保证大家使用数据指标时的简易度和准确性,统一数据语言当出现大家对同一个数据指标名称有不同理解时,往往会造成沟通效率低。统一数据语言,解决同义不同名/同名不同义的问题,用精确的可定量的业务语言来定义指标,可以降低工作中的沟通成本,提高沟通效率。统一数据生产同一个数据指标名有多种不同的取数口径,会出现数据差异的存在,导致数据可信度不高,核对成本较高。
2025-09-30 21:59:55
803
原创 数据治理3-数元数据管理与治理(资产等)
企业需要知道它们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁便用了数据,用于什么业务目的,数据的质量怎么样,等等。这些问题都需要通过元数据管理解决问题。业务元数据:描述数据的业务含义、业务规则等。通过明确业务元数据,让人们更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。常见的业务元数据有:业务定义、业务术语解释等;业务指标名称、计算口径、衍生指标等;业务规则
2025-09-30 16:10:55
941
原创 数据治理1-数据治理体系概述
数据治理是企业数据建设必不可少的一个环节,我们先看下有哪些问题?公司目前有哪些数据资产?这些数据从哪里来?用到了哪些地方?是否所有数据的使用均符合规范和制度?这些数据归属与哪些部门,业务线?数据的成本和价值比如何?数据治理的核心工作: 在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。数据治理是一种数据管理的概念,确保组织能在数据的全生命周期中具有高质量的数据质量能力,并且实现对数据的完全管理,以支持业务的目标。
2025-09-29 16:11:46
1153
原创 数据采集与同步
一般,我们说把业务系统数据库如 MySQL、Oracle、MongoDB 的库表数据、日志如埋点等数据以及第三方等其他数据同步至数据仓库之中,称为,一般同步过来的数据直接原封不动的存放在 ODS(Operational Data Store)贴源层。数据接入是数据入仓的第一关,数据接入后一般可以开发一些任务(对账系统就是要及时发现哪些数据表缺失,然后系统或者业务人员根据这些缺失数据表及时进行干预处理,确保同步前后保证数据的一致性。),或者配置一些数据质量监控规则,在数据入仓后就做好第一道数据质量防线。
2025-09-23 21:26:55
948
原创 Java - Lambda表达式
>右边: Lambda体应该使用一对{}包裹;如果lambda体只有一条执行语句 (可能是return语句),可以省略这一对{}。->左边: Lambda形参列表的参数类型可以省略(类型推断);如果Lambda形参列表只有一个参数, 其一对()也可以省略。举例: (o1, o2) -> Integer.compare(o1, o2);->左边: Lambda形参列表 (其实就是接口中的抽象方法的形参列表)->右边: Lambda体 (其实就是重写的抽象方法的方法体)
2025-08-13 13:58:19
188
原创 Java反射
Reflection(反射)是被视为动态语言的关键, 反射机制允许程序在执行期借助于Reflection API取得任何类的内部信息,并能直接操作任意对象的内部属性及方法。加载完类之后,在堆内存的方法区中就产生了一个Class类型的对象 (一个类只有一个Class对象), 这个对象就包含了完整的类的结构信息。我们可以通过这个对象看到类的结构。这个对象就像一面镜子, 透过这个镜子看到类的结构, 所以, 我们形象的称之为: 反射。重点是,反射具有。
2025-08-13 10:47:32
372
原创 Java IO流
在进行反序列化时,JVM会把传来的字节流中的serialVersionUID与本地相应实体类的serialVersionUID进行比较,如果相同就认为是一致的,可以进行反序列化,否则就会出现序列化版本不一致的异常。public String[] List(): 获取指定目录下的所有文件或者文件目录的名称数组public File[] listFiles(): 获取指定目录下的所有文件或者文件目录的File数组。不能获取目录的长度。注意点: 读取不同类型的数据的顺序要与当初写入文件时,保存的数据的顺序一致!
2025-08-12 19:08:39
871
原创 Java泛型
所谓泛型,就是允许在定义类、接口时通过一个标识表示类中某个属性的类型或者是某个方法的返回值及参数类型。这个类型参数将在使用时(例如,继承或实现这个接口,用这个类型声明变量、创建对象时)确定(即传入实际的类型参数,也称为类型实参)。但是不能使用基本数据类型,需要使用他们的包装类// int集合接口或集合类在jdk5.0时都修改为带泛型的结构。在实例化集合类时, 可以指明具体的泛型类型指明以后,在集合类或接口中凡是定义类或接口时,内部结构(比如:方法、构造器、属性等)都会自动带上泛型。
2025-08-11 20:50:07
633
原创 Java集合
对于Map接口(双列集合),下面也有主要的接口:HashMap,TreeMap,ConcurrentHashMap,Hashtable。Iterator对象称为迭代器(设计模式的一种),主要用于遍历Collection集合中的元素,又不会暴露容器对象的内部细节。说明: 此时的存储, 主要指的是内存层面的存储, 不涉及到持久化的存储 (.txt,.jpg,.avi, 数据库中)List容器中的元素都对应一个整型的序号记载其在容器中的位置,可以根据序号存取容器中的元素。所有的Java集合类,都是。
2025-08-10 22:27:46
627
原创 sql面试题
行转列的常规做法是,group by+sum(if())【或count(if())】查询课程编号“2”的成绩比课程编号“1”低的所有同学的学号、姓名。例:华泰证券2,ht2_stu、ht2_cou、ht2_sco。所有表均使用interview数据库。例:华泰证券1,ht1。例:腾讯游戏,tx1。
2025-06-04 22:26:06
203
原创 Hadhoop生态(Hadoop)
Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。HDFS(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度MAPREDUCE(分布式运算编程框架):解决海量数据计算广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
2025-04-06 10:51:55
1691
原创 Hadhoop生态(ZooKeeper)
Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。
2025-03-31 10:11:45
777
原创 powerBI
在这里插入图片描述](https://i-blog.csdnimg.cn/direct/f648c6fa6c0043c9b6a5c6309fd0872d.png#pic_center)进入Power Query界面,选择将第一行作用标题。Lookupvalue函数:就是Vlookup。度量值在表中不可见,但是可以在报表视图中看到。可以通过编辑查询更改列标签。最后关闭应用就完成了。
2025-03-22 12:04:06
749
原创 pands包中describe不显示全部内容的解决办法
在pandas库中,我们有时候会遇到显示全部统计信息的时候会省略的情况。这里有两种方法可以轻松解决这个问题。
2024-10-12 16:25:19
599
原创 Linux基础
Linux在服务器领域的应用是最强的。主要应用:机顶盒、数字电视、网络电话、手机、PDA、智能家 居、智能硬件等应用领域。在以后的物联网应用中会更加广泛。特点:免费、稳定、高效吉祥物:tux。
2024-06-30 21:08:41
600
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅