架构
文章平均质量分 78
csdn-延
好记性不如个烂笔头
展开
-
从大数据平台CDP的架构看大数据的发展趋势
随着各行各业数字化转型的推进,当前企业的业务系统,上云是一大趋势,且上云的最终形态,是多个公有云和私有云的混合部署形态,即混合云。随着组织在云环境中采用基于 Hadoop 的大数据部署,他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是 CDP 平台的一部分,下图展示了 CDP 平台的功能地图。其中:CDH和HDP都重点涵盖了数据工程和数据仓库场景,同时CDH对AI,ML和数据科学场景有侧重,而HDP对IoT数据摄取和流场景有侧重。已经不仅仅是最早概念的Hadoop,转载 2023-08-15 20:09:55 · 1124 阅读 · 0 评论 -
数据库中 脏读、幻读、不可重读是什么意思?
幻读(Phantom Read)指在一个事务中,读取到了其他事务插入的符合条件的新数据,或者其他事务已经删除的数据。例如,事务A执行了“SELECT * FROM table WHERE column=1”,然后事务B在这个表中插入了一条符合条件的新数据,那么当事务A再次执行同样的查询时,会返回另两条记录,如同出现幻觉一般,这就是幻读。在多个事务同时操作同一数据时,要么调整事务隔离级别,控制事务对数据的访问,避免出现问题,要么通过其他的方法来避免这些问题的出现,例如行级锁、加表锁等。原创 2023-08-04 00:54:55 · 539 阅读 · 0 评论 -
聊聊 Sharding-JDBC 数据脱敏
上文介绍到了Sharding-JDBC支持的两种加密策略,肯定都是要实现一下,下面将会针对两种策略去介绍一下如何自定义。自定义很简单,直接实现Encryptor 接口即可,重写其中的加密、解密方法。下面自定义一个SHA256加密算法器,这是一种不可逆的算法,如下:复制/*** @author 不才陈某 公众号:码猿技术专栏* 自定义的加密解密算法,基于sha256*/@Data/*** 别名,配置时需要*/@Override/*** 加密。转载 2023-08-03 23:56:00 · 296 阅读 · 0 评论 -
事务事实表、周期快照事实表、累计快照事实表对比
1、事务事实表是稀疏的,只有当天发生的业务过程,事实表才会记录该业务过程的事实,如下单、支付等;而快照事实表是稠密的,无论当天是否有业务过程发生,都会记录 行,比如针对卖家的历史至今的下单和支付金额,无论当天卖家是否有下单支付事实,都会给该卖家记录一行。3、累计快照会记录整个业务过程,数据是不断更新的,而事务事实和周期快照则是不更新。2、事务事实表是可加的,周期快照是半可加的。转载 2023-07-27 18:56:02 · 474 阅读 · 0 评论 -
21条 MySQL 规范、优化最佳实践!
NOT NULL 列更节省空间,NULL 列需要一个额外字节作为判断是否为 NULL 的标志位。NULL 列需要注意空指针问题,NULL 列在计算和比较的时候,需要注意空指针问题。修改或者删除SQL,先写WHERE查一下,确认后再补充 delete 或 update(SQL后悔药)尤其在操作生产的数据时,遇到修改或者删除的 SQL,先加个 where 查询一下,确认 OK 之后,再执行 update 或者 delete 操作。转载 2023-07-26 22:50:04 · 297 阅读 · 0 评论 -
mysql中聚集索引、辅助索引、覆盖索引、联合索引怎么用
本文主要介绍"mysql中聚集索引、辅助索引、覆盖索引、联合索引怎么用" 有关的知识,希望能够解决您遇到有关问题,下面我们一起来看看这篇 "mysql中聚集索引、辅助索引、覆盖索引、联合索引怎么用" 文章。转载 2023-07-26 21:48:47 · 439 阅读 · 0 评论 -
Mysql MVCC机制原理详解
MVCC,全称Multi-Version Concurrency Control,即多版本并发控制。MVCC是一种并发控制的方法,一般在数据库管理系统中,实现对数据库的并发访问,在编程语言中实现事务内存。我们知道,一般情况下我们使用mysql数据库的时候使用的是Innodb存储引擎,Innodb存储引擎是支持事务的,那么当多线程同时执行事务的时候,可能会出现并发问题。这个时候需要一个能够控制并发的方法,MVCC就起到了这个作用。转载 2023-07-26 21:24:02 · 371 阅读 · 0 评论 -
CDH6安装文档
大数据CDH集群安装步骤转载 2023-05-14 14:14:32 · 282 阅读 · 0 评论 -
小红书基于数据湖的流批统一存储实践
我们的数据湖是采用的 Iceberg,当数据写入到 Kafka 中,内部线程会去抓取 Leader 数据,经过一些 Schema 数据解析转换为 Table Format 格式写入到 Iceberg 中,这个过程是异步的,对用户来说是无感的。这些都是作为数据共享层数据存储的底座,以及计算分析引擎的一个入口。在 Builtin 的形式下,我们看到只有一个独立的进程,在里面处理落日志之外,还会有一个异步的线程叫 Iceberg Syncer 去不断拉取日志中的数据,然后写入湖中,这种方式有优势也有劣势。转载 2023-04-19 00:20:03 · 777 阅读 · 0 评论 -
5个互联网大厂实时数仓建设实例,例例皆经典
目录一、实时数仓建设背景1. 实时需求日趋迫切2. 实时技术日趋成熟二、实时数仓建设目的1. 解决传统数仓的问题2. 实时数仓的应用场景三、实时数仓建设方案1. 滴滴顺风车实时数仓案例2. 快手实时数仓场景化案例3. 腾讯看点实时数仓案例4. 有赞实时数仓案例5. 腾讯全场景实时数仓建设案例目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效转载 2023-04-18 23:45:16 · 2866 阅读 · 0 评论 -
一文彻底搞懂实时数仓如何选型和构建
首先将各种来源的数据接入ODS贴源数据层,再对ODS层的数据使用Flink的实时计算进行过滤、清洗、转化、关联等操作,形成针对不同业务主题的DWD数据明细层,并将数据发送到Kafka集群。为数据仓库层,数据明细层的数据应是经过ODS清洗,转后的一致的、准确的、干净的数据。目前老的项目大部分还在使用的标准分层体现+流计算+批量计算的方案。:通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,每一层的处理逻辑都相对简单和容易理解。转载 2023-04-18 21:26:37 · 1363 阅读 · 0 评论 -
每个程序员都需要知道的8种通用数据结构
快速介绍8种常用数据结构数据结构是一种特殊的组织和存储数据的方式,可以使我们可以更高效地对存储的数据执行操作。 数据结构在计算机科学和软件工程领域具有广泛而多样的用途。几乎所有已开发的程序或软件系统都使用数据结构。 此外,数据结构属于计算机科学和软件工程的基础。 当涉及软件工程面试问题时,这是一个关键主题。 因此,作为开发人员,我们必须对数据结构有充分的了解。在本文中,我将简要解释每个程序员必须知道的8种常用数据结构。1.数组数组是固定大小的结构,可以容纳相同数据类型的项目。 它转载 2021-12-08 00:10:03 · 197 阅读 · 0 评论 -
作为国内规模最大的 ClickHouse 用户,字节跳动踩过哪些坑?
ClickHouse 由于其性能方面的突出优势,正在分析型数据库领域掀起一波新的技术浪潮。作为国内规模最大的 ClickHouse 用户,目前字节跳动内部的 ClickHouse 节点总数超过 15000 个,管理总数据量超过 600PB,最大的集群规模在 2400 余个节点。实际上,字节跳动广泛的业务增长分析很多都建立在 ClickHouse 为基础的查询引擎上。那么,ClickHouse 具体应用于字节跳动哪些业务场景?为什么选择采用 ClickHouse 而不是其他数据分析技术?在使用 Click转载 2021-12-08 00:02:56 · 481 阅读 · 0 评论 -
Cloudera Manager 术语和架构
Cloudera Manager 术语为了有效地使用Cloudera Manager,您应该首先了解其术语。术语之间的关系如下所示,其定义如下:有时,术语服务和角色用于同时指代类型和实例,这可能会造成混淆。Cloudera Manager 和本节有时对类型和实例使用相同的术语。例如,Cloudera Manager 管理控制台的“主页” >“状态”选项卡和“集群” >“ ClusterName” 菜单列出了服务实例。这类似于编程语言中的惯例,其中“字符串”一词可能表示类型(.转载 2021-12-07 23:59:17 · 97 阅读 · 0 评论 -
什么是数据结构?程序员如何学好数据结构?
前几天,小灰给大家介绍了什么是算法。说到算法,就不能不说起数据结构。今天我来讲一讲,什么是数据结构?程序员怎么学好数据结构?我们介绍算法的时候说过,计算机当中的算法,本质就是一系列程序指令,用以解决特定的运算和逻辑问题。而所谓数据结构,是数据的组织、管理和存储格式。简单理解的话,数据结构就是执行算法的“原材料”。俗话讲,巧妇难为无米之炊。算法,就好比是聪明勤劳的女主人,而数据结构,就是用来做饭做菜的柴米油盐。数据结构都有哪些组成方式呢?首先,是线性结构。但凡有过一点编程基转载 2021-12-06 01:01:38 · 216 阅读 · 0 评论 -
实时数仓分层介绍
ODS: 原始数据,日志和业务数据。可通过Kafka进行收集。DWD: 根据数据对象为单位进行分流,比如订单、页面访问等等。可存储在Kafka中。DIM: 维度数据。可存储在HBase中。DWM: 对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据。DWS: 根据某个主题将多个事实数据轻度聚合,形成主题宽表。 可存储在Doris、ClickHouse、Elasticsearch中。DM/ADS: 把Doris/ClickHouse中的数据根据可视化需进行筛原创 2021-12-06 00:58:05 · 1648 阅读 · 0 评论 -
azkaban 调度任务一直处于preparing状态
原因: azkaban注册的执行器节点数据出现混乱解决方法:1. 停止当前azkaban服务(azkaban-execute 和 azkaban web server)2. 清除azkaban的executes表数据(清除之前表中此时存在除正常节点和激活状态为1的外的其它数据)3. 开启azkaban-execute服务4. 将azkaban的executes表的active值更新为15. 开启azkaban web server服务done....原创 2021-08-15 23:56:54 · 2160 阅读 · 0 评论 -
大数据平台数据处理之Lambda架构和Kappa架构
首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop,日志同步可以选择转载 2021-08-15 23:42:50 · 2775 阅读 · 0 评论 -
IaaS、PaaS、SaaS、DaaS都是什么?现在怎么样了?看完这篇文章你就明白了!
导读:本文将详细科普云计算的概念、云服务的发展现状,并逐一介绍各种云服务模式(IaaS、PaaS、SaaS、DaaS),建议收藏!01 云计算的概念云是一种服务,可以像使用水、电、煤那样按需使用、灵活付费,使用者只需关注服务本身。云计算的资源是动态扩展且虚拟化的,通过互联网提供,终端用户不需要了解云中基础设施的细节,不必具有专业的云技术知识,也无须直接进行控制,只要关注自身真正需要什么样的资源以及如何通过网络来获得相应的服务即可。按照服务划分,云计算可以分为IaaS、转载 2021-08-15 23:32:36 · 7290 阅读 · 1 评论 -
高并发架构系列:分布式数据库数据一致性的原理、与技术实现方案
背景可用性(Availability)和一致性(Consistency)是分布式系统的基本问题,先有著名的CAP理论定义过分布式环境下二者不可兼得的关系,又有神秘的Paxos协议号称是史上最简单的分布式系统一致性算法并获得图灵奖,再有开源产品ZooKeeper实现的ZAB协议号称超越Paxos。在大数据场景下,分布式数据库的数据一致性管理是其最重要的内核技术之一,也是保证分布式数据库满足数...原创 2019-03-26 23:29:33 · 1771 阅读 · 0 评论 -
高并发架构系列:什么是流量削峰?如何解决秒杀业务的削峰场景
流量削峰的由来主要是还是来自于互联网的业务场景,例如,马上即将开始的春节火车票抢购,大量的用户需要同一时间去抢购;以及大家熟知的阿里双11秒杀,短时间上亿的用户涌入,瞬间流量巨大(高并发),比如:200万人准备在凌晨12:00准备抢购一件商品,但是商品的数量缺是有限的100-500件左右。这样真实能购买到该件商品的用户也只有几百人左右, 但是从业务上来说,秒杀活动是希望更多的人来参与,...转载 2019-03-26 23:35:26 · 5128 阅读 · 0 评论 -
数据仓库的架构与设计
公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 1. 什么是数据仓库1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数...转载 2019-06-03 16:35:23 · 196 阅读 · 0 评论 -
大数据技术整理
目录一. HadoopHadoopYarnMapReduceHdfsCDH|Cloudera Manager二. 数据分析HiveImpala三. 离线和实时数据处理FlinkSparkStormKafka四. OLAP分析平台Kylin五. 日志数据采集工具FlumeELK(Elasticsearch、Log...原创 2019-06-04 10:04:53 · 278 阅读 · 0 评论 -
数据仓库——阿里五层模型架构
目录1. ODS 数据准备层2. DWD 数据明细层3. DW(B/S) 数据汇总层4. DM 数据集市层5. ST 数据应用层解码OneData,阿里的数仓之路1. ODS 数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清...转载 2019-06-04 15:09:15 · 15581 阅读 · 3 评论 -
数据仓库的四个层次设计
数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作 ETL(extractiontransformation loading)负责将分散...转载 2019-06-04 16:05:03 · 17359 阅读 · 0 评论 -
在更改密码和注销时使JWT无效的最佳做法?
不使用刷新令牌时:1. 更改密码时:当用户更改密码时,请注意用户数据库中的更改密码时间,因此当更改密码时间大于令牌创建时间时,令牌无效。因此可以很快将其它的会话也给注销掉。2. 当用户注销时:当用户注销时,将令牌保存在单独的数据库中(例如:InvalidTokenDB并在令牌过期时从Db中删除令牌)。因此,用户从相应的设备注销,他在其他设备中的会话保持不受干扰。因此,在使J...翻译 2019-06-21 14:09:23 · 9332 阅读 · 5 评论 -
高并发架构系列:数据库主从同步的3种一致性方案实现,及优劣比较
数据主从同步的由来互联网的很多业务,特别是在高并发的场景下,基本都是读远远大于写,如果数据库读和写的压力都同在一台主机上,这显然不太合理。于是,把一台数据库主机分为单独的一台写主库(主要负责写操作),而把读的数据库压力分配给读的从库,而且读从库可以变为多台,这就是读写分离的典型场景如下:为了进一步的降低数据库端的压力(高并发的瓶颈),这个时候也会在业务层部署分布式缓存集...原创 2019-03-26 23:26:40 · 1721 阅读 · 0 评论