大数据
文章平均质量分 50
初夏0811
爱生活,爱写作,不爱加班
展开
-
【数仓】数仓中的原子指标、派生指标、衍生指标等指标的含义
从业务的角度讲,实体是为了满足分析的需要,抽象出来的概念,从业务中拆分出一个个实体,可以是现实存在的业务对象,如用户,商品,也可以是显示没有的,即虚拟的业务对象,如会员。原创 2024-02-19 20:33:19 · 50529 阅读 · 0 评论 -
flink-on-yarn两种提交模式及其区别
*缺点:**每次递交作业都会申请资源,会影响执行效率,因为每次申请资源需要消耗时间。**优点:**不需要每次递交都申请资源,而是使用已经申请好的资源,从而提高执行效率。**缺点:**作业执行完成以后,不会释放资源,因此会一直占用系统资源。**应用场景:**适用作业递交比较频繁 的场景,小作业比较多的场景。**优点:**作业运行完成后,会立即释放资源,不会一直占用系统资源。**应用场景:**适用作业比较少的场景,大作业的场景。**特点:**每次递交作业都需要申请一次资源。原创 2023-05-03 17:19:06 · 24483 阅读 · 0 评论 -
一文读懂zookeeper技术
一、zookeeper的安装1.下载linux环境zookeeper安装包(以3.6.3版本为例)下载地址: zookeeper3.6.32.上传到服务器再解压:tar -zxvf apache-zookeeper-3.6.3-bin.tar.gz3.修改安装目录名:mv apache-zookeeper-3.6.3-bin zookeeper-3.6.34.修改配置文件名称:mv ./conf/zoo_sample.cfg zoo.cfg注意这里可以修改配置文件相关参数的:5原创 2022-04-04 16:26:35 · 1819 阅读 · 0 评论 -
clickhouse如何查看数据库表的压缩比
在clickhouse,我们可以通过在default库下 system.parts查看clickhouse数据库和表的容量大小、行数、压缩率以及分区信息。1.查看数据库容量、行数、压缩率SELECT sum(rows) AS `总行数`, formatReadableSize(sum(data_uncompressed_bytes)) AS `原始大小`, formatReadableSize(sum(data_compressed_bytes)) AS `压缩大小`,原创 2022-03-31 23:04:49 · 3525 阅读 · 1 评论 -
clickhouse如何将一台服务器上的数据导入到另一台服务器
使用remote函数:insert into event select * from remote('10.25.76.111:9000','database','event','clickhouse','ckpassword')其中remote分别对应的参数:参数1:ip+port,即为源数据的服务器ip+端口;参数2:源数据服务器的数据库名;参数3:源数据的表名;参数4:源clickhouse数据库的客户端访问账号;参数5:源clickhouse数据库的客户端访问密码;...原创 2021-10-19 23:08:31 · 23895 阅读 · 0 评论 -
配置集群各节点SSH无密钥登陆
假设现在有三台集群机器hadoop201,hadoop202,hadoop203,并且已经设置了静态ip,主机名称和映射,现在需要设置SSH无密钥登陆,即从任意一台机器上可以无密钥的登陆到另外一台机器上。步骤如下:(1)分别在三个节点中执行以下命令,生成密钥文件:$ cd ~/ .ssh/ #若没有改目录,请先执行ssh localhost 命令$ ssh-keygen -t rsa #生成密钥文件,会有提示输入加密信息,都按回车即可(2)分别在三个节点中原创 2021-09-13 23:29:40 · 23020 阅读 · 0 评论 -
Hadoop 1.x 与 Hadoop 2.x的架构对比
Hadoop 1.x 与 Hadoop 2.x的架构对比如下图:Hadoop 1.x 的主要核心组成是MapReduce和HDFS。MapReduce不仅负责数据的计算,而且负责集群作业调度和资源(内存,CPU)管理,HDFS负责数据的存储。Hadoop 2.x 在原来的基础上引入了新的框架YARN。YARN负责集群资源管理和统一调度,而MapReduce功能变得单一,其运行于YARN之上,只负责进行数据的计算。由于YARN具有通用性,因此YARN也可以作为其他计算框架(例如。Spark,Storm等原创 2021-09-13 22:15:29 · 22791 阅读 · 0 评论