寒暄-CSDN博客

原创数据仓库工程师面经（未完）

HIVEHive row_number，dense_rank，rank三个函数的区别row_numberrow_number排序为标准顺序排序,排序后序号按照行号依次递增。a 1b 2b 3b 4c 5c 6dense_rankdense_rank排序中大小一致的元素序号一样，然后按照元素降序依次降序排序。a 1b 2b 2b 2c 3c 3rankrank排序大小一致的元素序号一样，但是会按照行号依次降序排序。a 1b 2b 2b 2c 5c 5

2020-09-05 10:47:26 4032 4

原创 Hive源码阅读--导读

总述Hive的执行流程大致分为两部分，即任务的提交与返回,命令的编译与执行。前者在CliDriver类中流转，后者主要在Driver与ParseDriver类，核心编译在BaseSemanticAnalyzer和QueryPlan类中。任务的提交与返回调用顺序：main --(程序的开始)–>run --(任务的开始，读取用户传参与相关配置，初始化日志)–>executeDriver --(确保传入的语句是一条完整的SQL或命令)–>processLine --(

2020-08-21 11:58:10 2797 7

原创大数据SQL经典面试题系列(2) - 蚂蚁森林面试题

准备数据：plant_carbon.txt 换取树苗所需碳排放量（换树表）p001 梭梭树 17p002 沙柳 19p003 樟子树 146p004 胡杨 215user_low_carbon.txt 用户累计减少碳排放量表（用户积碳表）u_001 2017/1/1 10u_001 2017/1/2 150u_001 2017/1/2 110u_001 2017/1/2 10u_001 2017/1/4 50u_001 2017/1/4 10u_001 2017/1/6 45

2020-07-15 10:54:31 1659 1

原创数据仓库灵魂30问之数据仓库、数据中台、数据湖有什么区别

先说结论：数据仓库实行分而治之，面向BI（商业智能）；数据中台实行一统天下，面向DateAPI（数据服务API）；数据湖实行无为而治，面向AI（人工智能）。他们三个实行的策略不同，用途不同。但是数据中台可以包容数据仓库与数据湖，数据湖与数据仓库是并存的。接着我从为什么建立他（目的），建立他需要什么（成本），可以带来什么（收益）三方面来讨论。数据仓库目的实现跨业务条线、跨系统的数据整合，为管理分析和业务决策提供统一的数据支持。也就是数据仓库主要用于为公司决策者提供决策支持，当然也可以为生产环

2020-07-10 11:37:25 567

原创数据仓库灵魂30问之如何建设数据中台？一幅图说清中台。

什么是中台？什么是数据中台数据仓库实现了企业数据模型的构建，大数据平台解决了海量、实时数据的计算和存储问题，数据中台要解决什么呢？数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。数据中台不应该被过度的承载平台的计算、存储、加工任务，而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放，知识图谱的构建。通过一系列工具、组织、流程、规范，实现数据前台和后台的连接，突破数据局限，为企业提供更灵活、高效、低成本的数据分析挖掘服务，

2020-07-09 11:22:52 643

原创开源 OLAP 引擎选择标准

说OLAP引擎，就得先说说OLTP引擎。什么是OLTP引擎20世纪70年代，关系型数据库随着一篇影响世界发展进程的论文发表而出现。20世纪80年代，人们太喜欢关系型数据库了，恨不得把所有的数据都存进去，许多企业利用关系型数据库来存储和管理业务数据，并建立相应的应用系统来支持日常的业务运作。这种应用以支持业务处理为主要目的，被称为联机事务处理(On line Transaction Processing，OLTP)应用，它所存储的数据被称为操作数据或者业务数据。一言以蔽之：OLTP引擎用来管理操作性

2020-06-24 10:08:14 847

原创【dolphinscheduler3.0】org.apache.dolphinscheduler.server.master.runner.task.CommonTaskProcessor:[125]

一个版本bug的解决方法。

2023-01-05 11:31:56 740

原创 Hive 分析窗口函数

窗口函数窗口函数一般就是说over()函数，其窗口是由一个OVER字句定义的多行记录。窗口函数有两种形式：over(distribute by 分区字段 sort by 排序字段)distribute by 是按照多个reduce去处理数据的，对应的排序是局部排序sort byover(partition by 分区字段 order by 排序字段)partition by 是按照一个reduce去处理数据的，对应的排序是全局排序order by开窗大小设置：窗口大小的设置使用rows

2022-03-23 22:00:00 3421

原创 Flink原理与调优

Flink提交流程(Yarn-Per-Job)1. client运行脚本提交命令。2. CliFrontend实例化CliFrontendParser进行参数解析。3. CliFrontend实例化YarnJobClusterExecutor并创建客户端。4. 在客户端中实例化YarnClusterDescriptor封装YarnClient信息，包含提交参数和命令。5. 将信息提交给RM。6. RM向NM的yarnRMClient发送消息，启动APPmaster。7. NM分配资源生成AP

2022-03-18 17:53:59 3950

原创 Spark原理与调优

Spark core作业提交流程client运行脚本提交命令。SparkSubmit实例化SparkSubmitArguments进行参数解析。SparkSubmit实例化YarnClusterApplication并创建客户端。在客户端中封装YarnClient信息，包含提交参数和命令。将信息提交给RM。RM向NM的yarnRMClient发送消息，启动APPmaster。NM分配资源生成APPmaster，并启动Driver线程。执行代码，初始化Spa

2022-03-01 20:12:37 2076

原创 Zookeeper选举机制和同步策略

Zookeeper选举机制-第一次启动未启动此时所有节点无状态，无角色，但是zkService知道参与选举的节点数量Server 1 启动Server 1启动，选举开始，投自己一票，此时Server 1票数不过半，Server 1保持LOOKING状态。Server 2 启动Server 2启动，Server 2投自己一票，并与Server 1 互换投票信息，Server 2的myID大于Server 1 的myID，Server 1改投票给Server 2，此时Server 2票

2022-02-24 17:15:07 1127

原创 Hadoop原理与调优

Hadoop原理1. HDFS写流程1.client通过 Distributed FileSystem 模块向NameNode请求上传文件，NameNode会检查目标文件是否存在，路径是否正确，用户是否有权限。2.NameNode向client返回是否可以上传，同时返回三个离client近的DataNode节点，记为DN1/DN2/DN3。3.client通过DFSOutPutStream进行数据切割。4.使用chunk校验信息(512bytes校验信息+4bytes校验头)加Data数据信息组

2022-02-23 16:04:58 935

原创用户留存模型设计

渠道同期群分析方法企业通过渠道获客是有成本的，我们需要知道哪个渠道的新用户留存高，这样就可以降低获客成本。新老用户同期群分析（Cohort Analysis）方法以周为粒度进行举例，观察相同时间间隔后的表现，例如图中2019/1/1的新用户在第一周的留存率是49%，但2019/2/5的新用户留存率仅为40%，这说明新用户的留存率在下降，需要进行重点关注。这种方法有一个关注的重点，就是如何区分新用户，这就要通过用户行为进行甄别，新用户不熟悉app，第一次使用程度会比较浅，而老用户就相对轻车熟路。

2022-02-17 10:01:42 1148

原创 OneData方法论-数据质量管理

数据质量管理原则对于数据质量的评估从四个方面进行：完整性、准确性、一致性和及时性。完整性完整性是指数据的记录和信息是否完整，是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。准确性准确性是指数据中记录的信息和数据是否准确，是否存在异常或者错误。一致性一致性一般体现在跨度很大的数据仓库体系中，比如不同分支的业务数仓，对于同一份数据，必须保证一致性。及时性在确保数据的完整性、准确性和一致性后，接下来就要保障数据能够及时产出，这样才能体现数据的价值。

2022-02-16 16:53:42 735

原创 OneData方法论-元数据管理

元数据概述元数据定义元数据是关于数据的数据。元数据打通了源数据、数据仓库、数据应用，记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义，各层级间的映射关系、监控数据仓库的数据状态以及ETL作业的任务状态。元数据可以帮助数据仓库管理员和开发人员非常方便的找到他们所关系的数据，用于指导其进行数据管理和开发工作。元数据按照用途的不同分为两类：技术元数据和业务元数据。技术元数据技术元数据存放关于数据仓库系统技术细节的数据，用于开发和管理数据仓库使用的数据。分布式存储系统元数据，包含

2022-02-16 16:52:56 1654

原创 OneData方法论-事实表设计

事实表设计事实表特性事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。事实表中一条记录所表达的业务细节程度被称为粒度，粒度可以通过两种方式来表达：一种是维度属性组合所表示的细节程度，一种是所表示的具体业务含义。作为度量业务过程的事实，一般是整数或浮点型的十进制数值，有可加性、半可加性、不可加性三种。可加性是指可以按照与事实表关联的任意维度进行汇总，半可加性是指可以按照部分关联维度进行汇总，不可加性例如比例性度量，是不能按照维度进行汇总。维度属性也可以退化到事实表中，退化维度可以用于进行事

2022-02-16 09:42:19 1882

原创标签、画像设计与模型落地

标签标签的本质就是对实体某个维度特征的描述。用户标签就是对用户某个维度特征的描述，例如：对用户生命周期的标签（生命周期主题）：“参与这个活动的老用户和新用户各有多少”；对用户价值分层的标签（价值分层主题）：“本次活动有10万预算，应该如何分配”；对用户商品偏好的标签（行为偏好主题）：“给他们推送哪些商品可以增加他们的活跃”；对用户营销时机的标签（营销偏好主题）：“应该什么时候给他们推送”。标签的分类在《用户画像方法论和工程化解决方案》一书中将标签分为三类：①统计类标签，②规则类标签，③机器学

2022-02-11 17:06:04 1831

原创 OneServer方法论-概述

OneServiceOneService概述从定制研发的方式将数据给到业务人员、到主题式服务，数据服务追求的是一步步从“授人予鱼”走向“授人予渔”。而能够从业务视角建设准、快、全、统、通的体系而言，OneService体系起到了关键作用。在授人予鱼的阶段，数据部门处于弱势，业务部分处于强势；业务部门处在主导地位。因此，数据对业务的支撑就变成了给数式服务。为了解决这样的问题，必须在数据统一、服务统一两个方面同时着手，两手都要抓，两手都要硬。2012年前后的数据服务提供给数式服务，首先根据业务

2022-01-18 17:26:36 3560

原创 OneEntity方法论-概述

OneEntityOneEntity概述因为全球数据量的激增，企业会从多终端、全渠道采集到的表现形式多种多样的数据，与人有关的实体数据最少有三种类型：①业务账号信息；②PC端cookie、无线设备标志；③身份属性信息。每天都有大量实体数据产生且分布在不同的业务单元中，这些数据天然就有被孤立的可能性。且不同业务单元出于自身发展需求来看，不同团队肯定是出于自身需求建设自有数据体系。但全局上便形成了数据孤岛。OneEntity方法论用来打破数据孤岛，进行数据融合。OneEntity统一实体我们将若干个

2022-01-18 14:37:46 1743

原创 OneData方法论-维度表设计

维度设计维度的概念维度是维度建模的基础和灵魂。在维度建模中，将度量称为“事实”，将环境描述为“维度”，维度是用于分析事实所需要的多样环境。维度表中的列，称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源，是数据易用性的关键。维度的作用一般是查询约束、分类汇总以及排序等。如何获取维度或维度属性？一方面，可以在报表中获取；另一方面，可以在和业务人员的交谈中发现维度或维度属性。因为它们经常出现在查询或报表请求中的“按照”（ by ）语句内。例如，用户要“按照”月份和产品来查看销售情况，那

2022-01-17 20:27:15 2527 1

原创 OneData方法论-概述

OneDataOneData概述OneData是阿里巴巴数据整合及管理体系，其方法论的核心在于：从业务架构设计到模型设计，从数据研发到数据服务，做到数据可管理、可追溯、可规避重复建设。即数据只建设一次。OneData体系架构Onedata方法论分为三个阶段：业务板块、规范定义、模型设计。业务板块：根据业务的属性划分出几个相对独立的业务板块，业务板块的指标或业务重叠性较小。规范定义：结合业务板块相关数仓建设经验设计出的一套数据规范命名体系。模型设计：以维度建模理论为基础，基于维度建模总线矩阵

2022-01-15 16:17:18 9616 2

原创 doris编译安装部署

编译# 下载wget http://archive.apache.org/dist/incubator/doris/0.12.0-incubating/apache-doris-0.12.0-incubating-src.tar.gz# 解压缩tar -zxvf apache-doris-0.12.0-incubating-src.tar.gzmv apache-doris-0.12.0-incubating-src doris12# 修改yum源vi /etc/yum.repos.d/o

2021-09-27 17:50:49 626

原创 Kafka连接器--错误处理和死信队列

# 容忍所有错误。errors.tolerance = all # 在 Kafka 主题中生成错误上下文errors.deadletterqueue.topic.name = my-connector-errors# 记录消息的失败原因errors.deadletterqueue.context.headers.enable = true # 记录错误上下文以及应用程序日志，但不包括配置和消息errors.log.enable=trueerrors.log.include.messages

2021-09-07 11:44:20 644

原创 DolphinScheduler作业流添加实例

添加租户1.登录后应当添加一个租户，租户编码对应liunx系统中真实存在的用户。添加用户2.使用该租户创建一个用户，用户表示登录DolphinScheduler所用账户。3.有两种告警方式，分别是邮件和短信。4.设置该用户提交的作业可使用的worker。创建项目5.创建一个项目6.创建项目后点击项目名即可进入该项目。设置工作流7.创建一个工作流8.配置自己的工作流设置定时管理9.设置定时规则为用户添加项目10.为用户授权项目，用户得到授权后就有该项目所有权限。

2021-09-04 09:10:08 786

原创 DolphinScheduler集群部署

下载wgnt https://dlcdn.apache.org/dolphinscheduler/1.3.6/apache-dolphinscheduler-1.3.6-bin.tar.gz前置环境jdk1.8+zookeeper3.4.6+PostgreSQL (8.2.15+) or MySQL (5.7系列)ssh免密(基于部署用户的ssh免密)用户配置# 创建用户需使用root登录，设置部署用户名useradd dolphinscheduler# 设置用户密码echo

2021-09-03 11:38:54 1066

原创基于Kafka+Debezium+Flink的 SQLServer实时增量同步方案

安装Connector下载链接http://client.hub.confluent.io/confluent-hub-client-latest.tar.gz?_ga=2.215682399.93673590.1629776859-1065619546.1629776859解压tar confluent-hub-client-latest.tar -C /opt/module/confluent-hub配置环境变量export CONN_HOME=/opt/module/confluent

2021-08-31 10:54:18 1567

原创基于FlinkCDC的Mysql向 SQLServer实时增量同步方案

基于FlinkCDC的MySQL向SQLServer实时增量同步方案CDC实现类package com.flinkcdc;import com.alibaba.fastjson.JSONObject;import com.alibaba.ververica.cdc.connectors.mysql.MySQLSource;import com.alibaba.ververica.cdc.debezium.DebeziumDeserializationSchema;import com.alib

2021-08-26 16:39:18 1336

原创基于SparkSQL+SQLServerCDC的SQLServer定时增量同步方案

基于Spark+SQLServerCDC的SQLServer定时增量同步方案启动类，负责初始化一些准备事宜。package com.etl;import org.apache.log4j.Level;import org.apache.log4j.Logger;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.Datas

2021-08-26 16:37:44 731

原创 Hadoop 踩坑小记

org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory XXX not formatted1.关停集群2.启动zkzkServer.sh start3.启动journalnodehdfs --daemon start 启动journalnode4.初始化journalnodehdfs namenode -initializeSharedEditsorg.

2021-08-19 09:49:27 399 1

原创基于FlinkCDC的MySQL增量同步

CDC什么是CDCCDC是Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。CDC类型CDC主要分为基于查询和基于Binlog的两种方式。基于查询的CDC基于Binlog的CDC开源产品Sqoop、Kafka JDBC SourceCanal、Maxwell、Debezium执行模式Batch

2021-08-17 17:40:18 3061

原创 CentOS 解决根目录空间不足的问题

# 根目录扩容[root@sc1 ~]# fdisk -l磁盘 /dev/sda：64.4 GB, 64424509440 字节，125829120 个扇区Units = 扇区 of 1 * 512 = 512 bytes扇区大小(逻辑/物理)：512 字节 / 512 字节I/O 大小(最小/最佳)：512 字节 / 512 字节磁盘标签类型：dos磁盘标识符：0x000a2dae 设备 Boot Start End Blocks Id..

2021-08-16 15:10:04 2513

原创 Hive3 on Spark2

Spark2下载spark2纯净版wget https://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-without-hadoop.tgz安装配置纯净版默认配置不赘述。删除多余的cmd文件cd 纯净版解压路径rm -rf */*.cmd配置spark-env.shexport HADOOP_HOME=/opt/modules/hadoop3export SPARK_DIST_CLASSPATH=$(${

2021-08-13 14:41:51 716 1

原创 Hudi To Hive

Hudi To Hive首先把hudi-hadoop-mr拷贝到hive的lib目录下。cp packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.3-sources.jar /opt/hdk/hive/lib/[root@ha1 /]# scp /opt/hdk/hive/lib/hudi-hadoop-mr-bundle-0.5.3-sources.jar root@ha2:/opt/hdk/hive/lib/hudi

2021-06-01 14:20:04 1749

原创 Hudi Merge_On_Read模式

Merge_On_Read模式操作插入数据merge on read 主要是要是加入option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.MOR_TABLE_TYPE_OPT_VAL)参数。package com.hudiimport org.apache.hudi.DataSourceWriteOptionsimport org.apache.hudi.config.{HoodieIndexConfig,

2021-06-01 11:40:54 1709

原创 Spark操作Hudi

pom文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav

2021-05-28 14:28:54 2607 3

原创 hudi概念

近实时摄取对于 RDBMS 关系型的摄入，Hudi提供了更快的 Upset 操作。例如，你可以通过 MySql binlog 的形式或者 Sqoop 导入到 hdfs上的对应的 Hudi表中，这样操作比 Sqoop 批量合并 job（Sqoop merge）和复杂合并工作流更加快速高效。对于NoSql的数据库，比如Cassandra，Voldemort，Hbase，这种可以存储数十亿行的数据库。采用完全批量加载是根本不可行的，并且如果摄取数据要跟上通常较高的更新量，则需要更有效的方法。即使对于像 Ka

2021-05-10 11:22:58 2903

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

dolphinscheduler-service-3.1.0.jar

CDH-6.3.2-FLINK1.12.0相关资源包

行政区域维度表、时间维度表、日期维度表数据.rar

flink-connector-clickhouse.jar

hudi编译所需jar包.zip

guliVideo.zip

doris-output 编译后

ClickHouse_19.7.3.9-el7_rpm包

atlas必备资源包

标签设计文档.xlsx

空空如也