m0_46218511-CSDN博客

注意：priority_networks配置依据，执行命令 ip a查询子网网段。下载地址：https://doris.apache.org/download/执行下列命令，能查出记录的下载avx2版本，否则下载noavx2版本。需要使用mysql客户端连接doris。注意：存储目录必须手动提前创建。目的：将be和fe连接起来。分发到需要安装BE的节点。注意这里的*不要去掉。

2024-03-13 20:23:20 1117

一个应用中可能有多个作业，分发器Dispatcher将每一个作业封装成一个JobMaster对象，JobMaster将每一个作业的代码执行逻辑生成一个执行图，资源管理器ResourceManager向TaskManager申请资源来执行该作业的执行操作，最终将作业交给TaskManager中的任务槽Slot来执行，作业执行完成后返回给客户端响应。在yarn的WEB-UI界面，点击任务的History位置，如果Flink历史服务器生效就会跳转到Flink历史服务器UI界面，否则会跳转到Yarn的UI界面。

2024-02-27 08:27:38 1932

原创 Java抽取Hive、HDFS元数据信息

* 元数据表附加信息服务实现类*

2024-01-30 11:00:05 1182

原创大数据基础设施搭建 - Hbase

首先保证Zookeeper和Hadoop正常运行。

2024-01-23 16:15:53 1420

原创大数据基础设施搭建 - Redis

需要通过命令行进行开启，因为aof的备份恢复优先级高于rdb，修改配置文件需要重启redis，重启后的aof文件是空的，备份恢复时redis中就是空的，所以需要在重启redis前准备好aof文件。有序不重复，就是在set的基础上，给每个元素绑定了一个分数，按照分数由低到高排序。redis是用c写的，因此安装redis需要c语言的编译环境，即需要安装gcc。RDB为快照备份，会在备份时将内存中的所有数据持久化到磁盘的一个文件中。AOF为日志备份，会将所有写操作命令记录在一个日志文件中。

2024-01-22 20:11:23 597

原创数仓建设 - 维度建模 - DIM维度

1、上传日期数据文件到HDFS的临时目录 /tmp/tmp_dim_date_info/

2023-12-07 15:17:57 1086

原创大数据基础设施搭建 - 数据装载

入仓时机：业务数据、日志数据都同步到HDFS后。即Sqoop同步业务全量表完成后。业务数据进入HDFS时机：全量数据每天凌晨将昨天的数据同步到HDFS昨天目录。增量数据实时同步到HDFS到binlog对应的日期目录。日志数据进入HDFS时机：实时同步到日志行为发生的日期，JSON串中的ts字段解析出来的日期。

2023-12-03 20:24:02 789

原创大数据基础设施搭建 - 业务数据同步策略

套路：从body中拿出采集到的数据，解析出有用字段放入header中，配置文件中可以获取header中的东西。作用1：把从Kafka中获取的json串的业务表名放到header中。作用2：把从Kafka中获取的json串的ts时间戳转换成毫秒，放入header中。import com/**// 1、从body中解析json拿出想要字段 byte [ ] body = event . getBody();

2023-12-02 21:41:06 1629 1

原创 SQL解惑 - 谜题2

处理连续问题标准步骤：（1）按雇员分组，按日期排序，得到rn（2）用日期减rn。

2023-12-02 12:33:21 803

原创大数据基础设施搭建 - Maxwell

Maxwell需要在MySQL中存储其运行过程中的所需的一些数据，包括binlog同步的断点位置（Maxwell支持断点续传）等等，故需要在MySQL为Maxwell创建数据库及用户。授予权限2：任意库里的任意表的基础读权限（SELECT, REPLICATION CLIENT, REPLICATION SLAVE），给到maxwell用户的任意地址连接。授予权限1：把maxwell库下的所有表的ALL所有权限授予给maxwell用户的%任意的host地址连接。select_priv：查询权限。

2023-11-30 18:03:56 1477

原创大数据基础设施搭建 - Sqoop

部署节点：在Hadoop集群的任意节点部署都可以，因为Hadoop配置文件中指出了NameNode、ResourceManager在哪台节点上，并且配置文件分发到了所有节点上！–null-non-string：如果指定列为非字符串类型，使用指定字符串替换值为null的该类列的值。–null-string：如果指定列为字符串类型，使用指定字符串替换值为null的该类列的值。–fields-terminated-by：Hdfs文本文件中，字段分隔符？–compression-codec：指定压缩格式。

2023-11-29 22:55:45 890

原创大数据基础设施搭建 - Hive

hive元数据存储：默认是元数据存储于hive内置的derby数据库，是用Java写的。生产中使用独立服务模式，因为在嵌入式模式下，每个Hive CLI都需要直接连接元数据库，当Hive CLI较多时，数据库压力会比较大。如果配置文件中有此项配置，说明hive在连接元数据的时候需要走第三方服务thrift，必须启动独立服务模式metastore服务！有两种提供服务的方式，分别是嵌入式模式和独立服务模式。hive元数据概述：记录了hive中表的名称、列名、数据类型、分区信息、数据存储路径等。

2023-11-24 15:50:04 2783

原创大数据基础设施搭建 - Flume

作用：拦截events，经拦截器处理，输出处理后的events。开发：创建maven项目，打成jar包形式上传到flume所在机器作用：按照kafka消息中的时间字段，决定消息存储到hdfs的哪个文件中。import com/*** 作用：获取kafka中时间戳字段，放入event头中，flume写入hdfs时，从头部获取时间，作为该event放入hdfs的文件夹名称。

2023-11-23 13:06:21 2894

原创大数据基础设施搭建 - Kafka（with ZooKeeper）

Kafka官网：https://kafka.apache.org/introKafka是Scala开发的，运行依赖JVM，所以安装Kafka前需要先安装JDK。

2023-11-21 14:01:27 1219

原创大数据基础设施搭建 - ZooKeeper

内容：zookeeper的数据存储路径/myid文件存放路径。文件必须在配置的dataDir目录下。注意：ZooKeeper依赖JDK。必须修改，否则配置文件不起作用。文件名称必须是myid。内容：增加集群节点配置。

2023-11-19 20:08:23 574

原创大数据基础设施搭建 - MySQL

可能会报缺少依赖的错误！执行下面命令即可： [mall@mall mysql]$ sudo yum install libaio。

2023-11-18 19:22:47 466 1

原创大数据基础设施搭建 - Hadoop

代理配置：hadoop.proxyuser.hadoop.hosts必须配，hadoop.proxyuser.hadoop.groups和hadoop.proxyuser.hadoop.users至少配置一个。hadoop.proxyuser.hadoop.hosts和hadoop.proxyuser.hadoop.users：本案例配置表示允许用户hadoop，在任意主机节点，代理任意用户。该配置文件位于下面的JAR文件中:hadoop-mapreduce-client-core-x.x.x.jar。

2023-11-17 22:53:02 1917 1

原创大数据基础设施搭建 - JDK

在root账号下操作，/目录下只能用root账号创建目录。

2023-11-16 23:09:13 654

原创大数据基础设施搭建 - 阿里云Linux环境

目的：按i键切换至编辑模式，在# Example datasource config内容上增加以下配置，关闭cloud-init中的自动配置网络的参数，避免网卡配置文件内容被覆盖。描述：按i键切换至编辑模式，将BOOTPROTO的值修改为static，并将以上步骤中记录的IP地址、网关信息、子网掩码填写到该配置文件中，修改之后的内容如下所示。linux系统默认ip地址是动态获取的，如果不配置ip，每次重启服务器，ip都会改变，这对于访问系统中的项目是很不友好的。目的：查看实例的IP地址、子网掩码。

2023-11-16 10:43:11 321

原创数据仓库工具箱-第三章-零售业务

业务方目的（分析决策） ========》星型模型。

2023-11-07 17:03:25 1716

原创 SparkSQL - 常见问题

自动广播原理：orc格式的表会对数据进行压缩，如果压缩比过大，会导致广播时间过长。自动广播原因：大表join小表时，小表大小在阈值以下，就会自动广播小表到每个excutor。参考资料：https://www.ai2news.com/blog/3041168/TODO:如何查看spark集群的参数设置（搞一套自己的集群，自己试试看怎么查看）（3）广播变量的数据量是否太大（查看集群配置的自动广播阈值大小）（2）广播超时时间阈值太小（查看集群配置的广播超时时间阈值）（1）关闭自动广播或调低自动广播阈值。

2023-11-02 11:48:55 1932

原创七天内连续登陆天数

近七天连续登录天数

2023-08-31 20:11:43 293

原创数据仓库工具箱-第6章-订单管理

就是那些看起来像是事实表的一个维度关键字，但实际上并没有对应的维度表，就是维度属性存储到事实表中，这种存储到事实表中的维度列被称为退化维度。因为处于事实表中的订单号没有与维度表连接，所以它是一种退化维度。

2023-04-07 20:22:17 797 1

空空如也

空空如也