数仓2022 一、数仓(1)维表数据量太大怎么处理?① 水平拆分&垂直拆分比如客户维表,将国际型客户,企业客户,个人客户拆开;② 覆盖原始数据,并不保留之前的数据;③ 微型维度:通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中来实现的。这些属性相互之间没有直接关联,不存在自然键。通过为每个组合创建新行的一次性过程来加载数据。(2)增量与全量同步① 在传统的数据整合方案中,合并技术大多采用merge方式( update+insert)。当前流行的大数据平台基本都不支持upd
尚硅谷_ClickHouse 第 1 章 ClickHouse 入门ClickHouse 的特点高吞吐写入能力ClickHouse 采用类 LSM Tree的结构,数据写入后定期在后台 Compaction。通过类 LSM tree的结构,ClickHouse 在数据导入时全部是顺序 append 写,写入后数据段不可更改,在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。顺序写的特性,充分利用了磁盘的吞吐能力,即便在 HDD 上也有着优异的写入性能。数据分区与线程级并行ClickHouse 将
分享2021 大数据面试题分享_美团数仓面试题深度剖析: 在数仓中如何搭建一个“合适且完美”的模型?高内聚低耦合;核心模型和拓展模型分离;公共处理层逻辑下沉且单一;成本和性能平衡;数据可回滚;数据一致性(规范);命名清晰且容易理解...
尚硅谷大数据技术之Sqoop 一、 Sqoop 安装下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/测试 Sqoop 是否能够成功连接数据库bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000二、 Sqoop 的简单使用案例1. RDBMS 到 HDFS1)在 Mysql 中新建一张表并插入一些数据$ mysql -uroot
大数据技术之 Hive UDF 一、自定义函数当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF(User-Defined-Function)一进一出UDAF(User-Defined Aggregation Function)聚集函数,多进一出,类似于:count/max/minUDTF(User-Defined Table-Generating Functions)一进多出,如 lateral view explode()1. 自定义 UDF 函数0)需求:自定义一个 UDF
尚硅谷Shell教程(shell自动化编程精讲)_笔记 在线编译:https://c.runoob.com/compile/18哔哩哔哩:https://www.bilibili.com/video/BV1hW41167NW?p=7&spm_id_from=pageDriver一、Shell中的变量(1)常用系统变量:$HOME、$PWD、$SHELL、$USER(2)基本语法定义变量:变量=值撤销变量:unset 变量声明静态变量:readonly 变量,注意:不能unset(3)变量定义规则等号两侧不能有空格;在bash中,变量默
大数据之路:阿里巴巴大数据实践(数据模型篇) 思维导图第8章 大数据领域建模综述一、典型的数据仓库建模方法论1、ER模型特点:需要全面了解企业业务和数据、实施周期非常长、对建模人员的能力要求非常高。2、维度模型步骤:选择需要进行分析决策的业务过程、选择粒度、识别维表、选择事实(确定分析需要衡量的指标)3、Data Vault模型Data Vault模型由以下几部分组成:Hub:是企业的核心业务实体,由实体key、数据仓库序列代理键、装载时间、数据来源组成;Link:代表Hub之间的关系。这里与ER模型最大的区别是将关系作为一个独立
尚硅谷_尚硅谷离线数据仓库项目(阿里云离线数仓)_笔记 网址:https://www.bilibili.com/video/BV1AJ411Q7ox?p=29&spm_id_from=pageDriver一、项目架构设计1.1 阿里云技术框架1.2 技术选型1.3 系统数据流程设计二、数据生成模块三、数据采集模块3.1 购买 ECS 云服务器3.2 基础环境准备3.3 FlumeFlume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。3.4
离线和实时大数据开发实战 在数据仓库的实际工作中,80%的时间会花费在任务调度、数据清洗和业务梳理上,只有20%的时间会投入到数据挖掘上。第一篇 数据大图和数据平台大图第1章 数据大图第2章 数据平台大图1.OLTP、OLAP2.建模方法论:Kimball与Inmon对比Kimball维度建模的主题以星形架构为主,主题和主题之间则用一致性维和企业总线体系架构来保证数据仓库的集成和一致性。如果是 Inmon 模式,我们需要将数据库拆分成 用户实体表、成交日志实体表、用户与成交日志关系表等多个子模块。如果是 Kimb
大数据技术之 Hive 一、Hive 基本概念1)Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。2)Hive 本质:将 HQL 转化成 MapReduce 程序;Hive 处理的数据存储在 HDFSHive 分析数据底层的实现是 MapReduce执行程序运行在 Yarn 上3)Hive 架构原理二、Hive安装部署1. 安装 Hive1)把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/softw
黑马_大数据千亿级数仓实战_笔记 一、kettle介绍二、数据仓库开发1. 表结构介绍和导入数据2. 缓慢变化维a.拉链表存储历史快照代码实现操作步骤:在原有dw层表上,添加额外的两列:生效日期(dw_start_date)、失效日期(dw_end_date)只同步当天修改的数据到ods层拉链表算法实现:编写SQL处理当天最新的数据;编写SQL处理dw层历史数据,重新计算之前的dw_end_date;拉链表的数据为:当天最新的数据 UNION ALL 历史数据拉链表的数据为:当天最新的数据 UNION ALL 历史数据代
hadoop环境 集群Linux环境搭建注意事项1.windows系统确认所有的关于VmWare的服务都已经启动2.确认好VmWare生成的网关地址3. 确认VmNet8网卡已经配置好了IP地址和DNS复制虚拟机虚拟机修改Mac和IP1.集群规划node01 192.168.174.1002.设置ip和Mac地址① 每台虚拟机更改mac地址vim /etc/udev/rules.d/70-persistent-net.rules② 每台虚拟机更改IP地址:vim /etc/sysconfig/n
Linux常用命令汇总 https://blog.csdn.net/weixin_44895651/article/details/105289038?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161801444716780269867497%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=161801444716780269867497&biz_i
(废弃)大数据数仓从入门到精通 数仓架构详解建模阶段详解建模阶段:逻辑建模:建模工具是PD(PowerDesigner)物理建模:书写建库,建表语句数据仓库分层:ODS层、DWD层、DWS层、DM层事实表、维度表事实表:用于记录事实上产生数据的表,记录其动作维度表:对于事实表的说明星型模型:适用于业务简单、效率高,但数据有冗余;雪花模型:适用的场景与星型模型相反星座模型元数据管理数仓示例销售系统:客户表、订单表、产品表(1) 模型设计:PD(2) 物理实现...
ETL ETLExtract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程InformaticaKettle
Hadoop入门教程_笔记 spark在hadoop肩膀上可以让大数据飞的更高。一、总结1.概念Hadoop就是存储海量数据和分析海量数据的工具,是专为离线和大规模数据分析而设计的,其核心部件是HDFS与MapReduce。HDFS为海量的数据提供了存储。可以理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。MapReduce为海量的数据提供了计算。可以理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。2.怎么使用HadoopHadoo
spring、SpringMVC 一、Spring1.1 基于注解方式实现属性注入@Autowired是根据类型自动装配的,加上@Qualifier则可以根据byName的方式自动装配。@Qualifier不能单独使用。@Resource如有指定的name属性,先按该属性进行byName方式查找装配;其次再进行默认的byName方式进行装配;如果以上都不成功,则按byType的方式自动装配。@Component@Controller:web层@Service:service层@Repository:dao层这四个注解功能
git 1.常用命令清屏 clear切换到指定目录:cd E:cd java/狂神说_git/gitcode#查看系统configgit config --system --list #查看当前用户(global)配置git config --global --list2.从工作区到仓库区的命令git add .git commitgit push3.本地仓库搭建git init克隆远程仓库git clone [url] # https://gitee.com/kuangstu