![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 75
小金子的夏天
不深思则不能造于道。不深思而得者,其得易失。
展开
-
【转】TPC-C 、TPC-H和TPC-DS区别
TPC-DS是决策支持的基本测试,提供了决策支持系统的通用见面方式,包括数据查询和数据维护。基准测试的结果衡量了单用户模式下的响应时间,多用户模式下的查询吞吐量,特定操作系统和硬件的数据维护性能,在受限复杂的环境下数据处理系统、支持多用户决策。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。与TPC-A等以前的OLTP基准测试相比,TPC-C更复杂,因为它具有多种事务类型,更复杂的数据库和整体执行结构。官方提供的有测试包。原创 2022-11-29 09:40:36 · 672 阅读 · 0 评论 -
【转】TPC-C 、TPC-H和TPC-DS区别
TPC-C:TPC Benchmark C于1992年7月获得批准,是一个在线事务处理(OLTP)基准。 与TPC-A等以前的OLTP基准测试相比,TPC-C更复杂,因为它具有多种事务类型,更复杂的数据库和整体执行结构。 TPC-C涉及五个不同类型和复杂性的并发事务的混合,这些事务可以在线执行或排队等待延迟执行。 该数据库由九种类型的表组成,具有广泛的记录和人口规模。 TPC-C以每分钟事务数(tpmC)衡量。 虽然基准描述了批发供应商的活动,但TPC-C并不限于任何特定业务领域的活动,而是代表必须管理,销原创 2022-11-29 09:39:00 · 271 阅读 · 0 评论 -
【转】数据库索引详细介绍
索引相当于一本书的目录,通过目录我们可以迅速定位书中要找的内容。MySQL中的索引也是一样,它是一种帮助MySQL高效获取数据的数据结构(树)索引怎么实现的?为什么用B+树?索引是数据库中一个用于排序的数据结构,用来快速查询数据库中的数据。Mysql数据库使用B+树来实现索引的。B+树的特点就是叶子节点包含了所有的关键字信息和data数据,非叶子节点只包含子节点的最大或者最小关键字,用来实现索引。好处:既能实现快速查找,相比于B树又节约了内存空间。原创 2022-11-24 10:35:46 · 246 阅读 · 0 评论 -
MPP架构简介
MPP,全称为Massively Parallel Processor,翻译过来就是大规模并行处理。MPP系统是由许多松耦合的处理单元组成的(要注意的是这里指的是处理单元而不是处理器)。原创 2022-10-13 17:06:36 · 1395 阅读 · 0 评论 -
kafka主体(topic)消息保存关键参数解析
kafka主体(topic)消息保存关键参数解析原创 2022-09-05 16:05:34 · 1668 阅读 · 0 评论 -
模型风险管理简述
回顾模型风险管理在监管层面的历史,最早是美联储于2011年发布的《模型风险管理监管指引(SR11-7)》,它被认为是模型风险管理的里程碑,除了明确定义了模型风险管理外,还提出了组织结构、政策、程序、实践、标准等多方面的指导原则,逐步发展成为行业标杆性监管文件。二是分析和验证层,针对模型的全生命周期管理,设计了从模型需求、模型设计、模型开发、模型验证、模型评审、模型部署、模型投产、模型监控到模型退出等九个阶段,其中还包含模型验证方法论操作手册以及模型相关的指标体系等,能够对模型健康的可持续性提供有力保证。..原创 2022-07-28 10:51:07 · 941 阅读 · 0 评论 -
【转】Hive的概念、原理及其与Hadoop和数据库关系(图文讲解)
原文连接:Hive的概念、原理及其与Hadoop和数据库关系(图文讲解)_攻城狮Kevin-CSDN博客_hadoop hive一、Hive到底是什么1. 如何理解Hive(1)从概念上来看-> Hive是基于Hadoop的一个数据仓库工具;它是MapReduce的一个封装,底层就是MapReduce程序;-> Hive可以将结构化的数据文件(eg:按照各字段分类的数据)映射成一张虚表,并提供类SQL查询功能;-> 有了Hive后我们就不用再写麻烦的MapReduc原创 2022-03-10 15:52:42 · 1054 阅读 · 0 评论 -
列存储与行存储的对比
行存储 列存储 优点 写入效率高,保证数据完整性 读取效率高,没有冗余 缺点 数据有冗余现象,计算速度慢 写入次数多,速度慢,消耗cpu 使用场景 关注整张表内容,或者需要经常更新数据、需要经常读取整行数据、不需要聚集运算,或者快速查询需求、数据表本身数据行并不多 经常关注一张表某几列而非整表数据的时候、基于一列或比较少的列计算的时候、数据表拥有非常多的列的时候、数据表有非常多行数据并且需要聚集运算的时候、数据表列里有非常多的重复数据,有利于高度...原创 2022-03-04 11:05:14 · 1924 阅读 · 0 评论 -
Hadoop、Hive、Spark 之间的关系
转自知乎链接:https://www.zhihu.com/question/27974418/answer/156227565学习很重要的是能将纷繁复杂的信息进行归类和抽象。有点文(很喜欢这个答主和他的答案,属于那种有思维的人,尤其是他的这句话)。对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题。存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka; 计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等; 查询,原创 2022-03-01 15:34:37 · 402 阅读 · 0 评论 -
数据仓库建设
想看懂数据仓库的逻辑分层架构,必须先弄懂以下4大概念。数据源:数据来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报,API等。ODS层:数据仓库源头系统的数据表通常会原封不动地存储一份,这称为ODS层, ODS层也经常会被称为准备区。这一层做的工作是贴源,而这些数据和源系统的数据是同构,一般对这些数据分为全量更新和增量更新,通常在贴源的过程中会做一些简单的清洗。DW层:数据仓库明细层和数据仓库汇总层是数据仓库的主题内容。将一些数据...原创 2022-01-24 15:51:17 · 488 阅读 · 0 评论 -
数仓大宽表
个人建议是:宽表可以从很多的表中结合数据,但是鉴于宽表自身的缺陷,不建议过“宽”,在无法提前做测试的情况下,尽量只使用”小宽表“,即只使用宽表涉及面广的特点,但是表本身不大(行列均小),如果行过多可以建立partition机制。数据仓库模型一般有四种:宽表模型,星型模型,雪花模型,星座模型。四种模型定义如下:怎么判断是宽表好还是多维表好?数据仓库每张表的搭建,主要依赖于这个表在整个数据仓库中的作用和相关意义。首先要清楚这个表的存在是为了解决那些问题,什么角色使用,怎么保证使用者尽可能原创 2022-01-24 15:44:58 · 2145 阅读 · 0 评论