三石先生已存在-CSDN博客

转载数仓数据质量管理

一.数据资产等级划分1.等级定义根据“当数据质量不满足完整性、准确性、一致性、及时性时，对业务的影响程度大小”来划分数据的资产等级。毁灭性：数据一旦出错，会引起巨大的资产损失，面临重大收益受损等。标记为L1全局性：数据用于集团业务、企业级效果评估和重要决策任务等。标记为L2局部性：数据用于某个业务线的日常运营、分析报告等，如果出现问题会给该业务线造成一定的影响或影响其工作效率。标记为L3一般性：数据用于日常数据分析，出现问题的带来的影响很小。标记为L4未知性质：无法追溯数据的应用场景。标记为

2021-05-11 17:19:21 691

转载怎们保障企业数据仓库中的数据质量

（1）数据基础建设想要一个高质量的数据仓库，首先从数据仓库的设计上，我们就得有一个主题域完善，层级分明（通常分为ODS贴源层，DWD明细层，DWS汇总层，数据应用层），且数据消费场景明确，数据加工链路清晰的数据仓库体系。（2）数据处理监控通过数据血缘关系管理，监控并定位数据处理链路上出现问题的执行节点，及时通知到相应的负责人。（3）业务系统调整响应一是新增业务模块，导致有新的数据需要及时接入到数据仓库中二是业务模块变更，导致数仓中某些指标的历史统计口径发生了改变无论是哪一种，除了借助相应的发布

2021-05-11 16:42:40 323

转载代理模式和装饰器模式的区别

让别人帮助你做你并不关心的事情，叫代理模式为让自己的能力增强，使得增强后的自己能够使用更多的方法，拓展在自己基础之上的功能的，叫装饰器模式对装饰器模式来说，装饰者（decorator）和被装饰者（decoratee）都实现同一个接口。对代理模式来说，代理类（proxy class）和真实处理的类（real class）都实现同一个接口。他们之间的边界确实比较模糊，两者都是对类的方法进行扩展，具体区别如下：1、装饰器模式强调的是增强自身，在被装饰之后你能够在被增强的类上使用增强后的功能。增强后..

2021-05-08 09:51:00 246

原创力扣算法题

1 两数之和给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的两个整数。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。public class Solution { public int[] twoSum(int[] nums, int target) { for (int i=0;i<nums.length;i++){ for (int j=i+1;j<nums.le

2021-05-07 20:46:34 166

转载数仓分层架构

1 分层实现数据仓库一般分为三层，自上而下分别为数据贴源层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。1.1 ODS层（数据贴源层）贴源层，与业务库保持一致，不做任何处理1.2 CDM层（数据公共层）数据公共层CDM（Common Data Model，又称通用数据模型层），包括DIM维度表、DWD,DW和DWS，由ODS层数据加工而成。主要完成数据加工与整

2021-04-14 18:03:01 1678

转载数据质量那些事

1 基本概念数据质量管理（Data Quality Management），是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高数据质量管理不是一时的数据治理手段，而是循环的管理过程。其终极目标是通过可靠的数据，提升数据在使用中的价值，并最终为企业赢得经济效益2 影响因素数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段，数据

2021-04-14 17:50:07 149

转载元数据管理

1.概述元数据通常定义为”关于数据的数据”，元数据贯穿了数据仓库的整个生命周期，使用元数据驱动数据仓库的开发，使数据仓库自动化，可视化。元数据打通了源数据、数据仓库、数据应用，记录数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在数据仓库系统中，元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据，用于指导其进行数据管理和开发工作，可以极大的提升工作的效率。2.元数据定义将元数据按用途的不同分为两

2021-04-14 17:08:00 550

转载十大经典排序算法总结(二)

十大经典排序算法总结(一)2.5 归并排序2.5.1 概念和选择排序一样，归并排序的性能不受输入数据的影响，但表现比选择排序好的多，因为始终都是O(n log n）的时间复杂度。代价是需要额外的内存空间。归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。归并排序是一种稳定的排序方法。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。若将两个有序表合并成一个有序表，称为2-路归并。2.5

2021-04-12 20:27:20 56

转载 jvm内存模型

一.jvm 内存模型划分根据JVM规范，JVM 内存共分为虚拟机栈，堆，方法区，程序计数器，本地方法栈五个部分。1.程序计数器较小的内存空间，是当前线程锁执行字节码的行号指示器；各线程之间独立存储，互不影响2.虚拟机栈线程私有的。每个方法在执行的时候也会创建一个栈帧，存储了局部变量，操作数，动态链接，方法返回地址。每个方法从调用到执行完毕，对应一个栈帧在虚拟机栈中的入栈和出栈。通常所说的栈，一般是指在虚拟机栈中的局部变量部分。局部变量所需内存在编译期间完成分配，如果线程请求的栈深度大于虚

2021-04-11 17:33:43 222

转载 hashmap底层实现原理解析

一 HashMap底层实现原理解析我们常见的数据结构有三种：1.数组结构 2.链表结构 3.哈希表结构1.数组结构：存储区间连续，内存占用严重，空间复杂度大优点：随机读取和修改效率高，原因是数组是连续的缺点：插入和删除数据效率低，因为插入数据，这个位置后面的数据在内存中都要往后移动，且大小固定不易动态扩展2.链表结构存储区间离散，占用内存宽松，空间复杂读小优点：插入删除速度快，内存利用率高，没有固定大小，扩展灵活缺点：不能随机查找，每次都是从第一个开始遍历（查询效率低）3.哈

2021-04-08 11:58:32 143

转载十大经典排序算法总结(一)

一.排序算法说明1.1 排序的定义对一序列对象根据某个关键字进行排序。1.2 术语说明稳定：如果a原本在b前面，而a=b，排序之后a仍然在b的前面；不稳定：如果a原本在b的前面，而a=b，排序之后a可能会出现在b的后面；内排序：所有排序操作都在内存中完成；外排序：由于数据太大，因此把数据放在磁盘中，而排序通过磁盘和内存的数据传输才能进行；时间复杂度：一个算法执行所耗费的时间。空间复杂度：运行完一个程序所需内存的大小。1.3 算法总结占位符 https://blog.

2021-04-07 18:04:06 123

转载有序数组去重

给定一个排序数组，需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度数组nums=[0,0,1,1,1,2,2,3,3,4]函数应该返回新的长度为5，并且原数组nums的前五个元素被修改为0，1，2,3,4。不要使用额外的数组空间，必须在原地修改输入数据并在O(1)额外空间的条件下完成分析：对于问题。如果不要求空间和时间要求的话，还是很easy的。但是要求O(1)的时间。因此必须得另外想办法解决。这个的前提是有序数组，因此一样的数字都是排列在一起的。这里可以用到两个指针位，

2021-04-07 15:39:20 1213

转载 hive优化总结2

一.hive建表设计层面使用分区表优化分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局数据，使得处理的数据量大大减少，从而提高查询效率。也就是说：当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那么非常适合创建为分区表，该字段即为分区字段。使用分桶表优化跟分区的概念很相似，都是把数据分成多个不同的类别，区别就是规则不一样！1、分区：按照字段值来进行：一个

2021-03-28 22:44:06 619

转载 hive执行计划解析

1.hive执行流程的重要性1）当sql任务非常慢时，就需要分析它的执行流程2）常见的面试中，问对hive的理解？回答只是写sql，这个是很片面的。要从表面的sql，在脑海中映射出MR流程,在哪儿进行map，combiner，shuffle，reduce2.解析sql执行计划流程2.1 大数据两类sql框架单表分析：select a,聚合函数 from XXX group by b多表join分析：select a.,b. from a join b on a.id=b.id这两种sql框架

2021-03-28 22:35:46 638

原创 Hadoop常见面试题总结

1.HDFS读写流程1.1 读（1）client跟namenode通信查询元数据，namenode通过查询元数据，找到文件块所在的datanode服务器（2）挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流（3） datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验，大小为64k）（4）客户端以packet为单位接收，现在本地缓存，然后写入目标文件1.2 写（1）客户端跟namenode通信请求上传文件，na

2021-03-28 22:06:41 572

转载 hive优化总结

1.我们知道大数据场景下不害怕数据量大，害怕的是数据倾斜，怎样避免数据倾斜，找到可能产生数据倾斜的函数尤为关键，数据量较大的情况下，慎用count(distinct)，count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化mapred.min.split.size: 指的是数据的最小分割单元大小；min的默认值是1Bmapred.max.split.size: 指的是数据的最大分割单元大小；max的默认值是256MB通过调整max可以起到调

2021-03-28 21:20:27 116

原创浅谈数据湖与数据仓库

1.什么是数据湖呢？其实数据湖就是一个集中存储数据库，用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据，这是没有大小限制。数据湖的开发主要是为了处理大数据量，擅长处理非结构化数据。我们通常会将所有数据移动到数据湖中不进行转换。数据湖中的每个数据元素都会分配一个唯一的标识符，并对其进行标记，以后可通过查询找到该元素。这样做技术能够方便我们更好的储存数据。2.什么是数...

2020-03-26 23:04:11 341

转载数据倾斜的原理及解决办法

数据倾斜一.什么是数据倾斜简单来说，数据倾斜就是在计算数据的时候，由于key的分布不均匀，导致大量的数据集中到一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程很慢。二.数据倾斜的表现1.hadoop中的数据倾斜hadoop中直接贴近用户使用的是Mapreduce程序和hive程序。数据倾斜时主要表现在reduce阶段卡在99%，一直不能结束。详细日志表现...

2020-03-26 22:53:22 1547

weixin_42921390的博客