自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(213)
  • 资源 (1)
  • 收藏
  • 关注

原创 Apache Doris (六十三): Spark Doris Connector - (3)-配置型及列映射关系

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频。

2024-01-08 11:45:00 1456

原创 Apache Doris (六十二): Spark Doris Connector - (2)-使用

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频。

2024-01-06 11:45:00 1539

原创 Apache Doris (六十一): Spark Doris Connector - (1)-源码编译

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频。

2024-01-05 11:45:00 1212

原创 Apache Doris (六十): Doris - 物化视图

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。物化视图是将预先计算(根据定义好的 SELECT 语句)好的数据集,存储在 Doris 中的一个特殊的表。物化视图的出现主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询。在没有物化视图功能之前,用户一般都是使用 Rollup 功能通过预聚合方式提升查询效率的。但是 Rollup 具有一定的局限性,他不能基于明细模型做预聚合。物化视图则在覆盖了 Rollup 的功能的同时,还能支持更丰富的聚合函数。

2024-01-04 23:10:35 1892

原创 Apache Doris (五十九): Doris - BITMAP精准去重

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2024-01-03 01:00:00 1285

原创 Apache Doris (五十八): Doris - Join优化原理

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Doris 支持两种物理算子,一类是 Hash Join,另一类是 Nest Loop Join。针对Doris中的Join优化有如下以下方式需要注意。

2024-01-02 11:45:00 1031

原创 Apache Flink连载(二十三):Flink HA - Flink基于Yarn HA

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。

2024-01-01 11:45:00 511

原创 Apache Doris (五十七): Doris - Runtime Filter

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Runtime Filter 是在 Doris 0.15 版本中正式加入的新功能。旨在为某些 Join 查询在运行时动态生成过滤条件,来减少扫描的数据量,避免不必要的I/O和网络传输,从而加速查询。

2024-01-01 11:45:00 1187

原创 Apache Flink连载(二十二):Flink HA - Flink基于Standalone HA

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频Standalone模式下,JobManager的高可用性的基本思想是,任何时候都有一个Alive JobManager和多个Standby JobManager。

2023-12-31 11:45:00 1047

原创 Apache Flink连载(二十一):Flink On Yarn运行原理-Yarn Application模式

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。

2023-12-30 11:45:00 1265

原创 Apache Doris (五十六): Doris Join类型 - 四种Join对比

在Doris FE进行分布式查询规划时,优先选择的顺序为 Colocate Join -> Bucket Shuffle Join -> Shuffle Join ->Broadcast Join。则上述的选择优先顺序则不生效。Doris作为分布式的 MPP 数据库, 在 Join 的过程中根据使用的join类型来决定是否需要进行数据的 Shuffle,保证最终的 Join 结果是正确的。上面这 4 种方式灵活度是从高到低的,它对这个数据分布的要求是越来越严格,但 Join 计算的性能也是越来越好的。

2023-12-29 12:30:00 894

原创 Apache Flink连载(二十):Flink On Yarn运行 - Yarn Per-Job模式(弃用)

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。Per-Job模式就是直接由客户端向Yarn中提交Flink作业,每个作业形成一个单独的Flink集群。

2023-12-29 11:45:00 1252

原创 Apache Flink连载(十九):Flink On Yarn运行-Yarn Session模式

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。

2023-12-28 11:45:00 1684

原创 Apache Doris (五十五): Doris Join类型 - Colocation Join

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-12-28 00:51:06 1612

原创 Apache Flink连载(十八):Flink On Yarn运行原理及环境准备

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频。

2023-12-27 23:54:11 1881

原创 Apache Flink连载(十七):Flink On Standalone任务提交-Standalone Application模式

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-12-21 05:00:00 996

原创 Apache Flink连载(十六):Flink On Standalone任务提交-Standalone Session模式

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Flink On Standalone 即Flink任务运行在Standalone集群中,Standalone集群部署时采用Session模式来构建集群,即:首先构建一个Flink集群,Flink集群资源就固定了,所有提交到该集群的Flink作业都运行在这一个集群中,如果集群中提交的任务多资源不够时,需要手动增加节点,所以Flink 基于Standalone运行任务一般用在开发测试或者企业实时业务较少的场景下。。

2023-12-20 06:15:00 1042

原创 Apache Flink连载(十五):Flink任务提交模式

Flink分布式计算框架可以基于多种模式部署,每种部署模式下提交任务都有相应的资源管理方式,例如:Flink可以基于Standalone部署模式、基于Yarn部署模式、基于Kubernetes部署模式运行任务,以上不同的集群部署模式下提交Flink任务会涉及申请资源、各角色交互过程,不同模式申请资源涉及到的角色对象大体相同,下面我们以Flink运行时架构流程为例来总体了解下Flink任务提交后涉及到对象交互流程,以便后续学习不同任务提交模式下任务提交流程。

2023-12-19 07:00:00 1085

原创 Apache Flink连载(十四):Flink 本地模式开启WebUI

在工作中我们一般使用IntelliJ IDEA开发工具进行代码开发,为了能方便快速的调试Flink和了解Flink程序的运行情况,我们希望本地开发工具中运行Flink时能查看到WebUI,这就可以在编写Flink程序时开启本地WebUI。在Flink1.15版本之前根据使用Scala版本在Java Flink项目或Scala Flink项目中添加对应Scala版本的依赖。在Flink1.15版本之后,无论是Java Flink项目还是Scala Flink项目,添加如下依赖,不需额外依赖Scala版本。

2023-12-18 11:14:21 1428

原创 Apache Flink连载(十三):Flink History Server

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。基于Standalone或者Yarn模式提交Flink任务后,当任务执行失败、取消或者完成后,可以在WebUI中查看对应任务的统计信息,这些统计信息在生产环境中对我们来说非常重要,可以知道一个任务异常挂掉前发生了什么,便于定位问题。

2023-12-14 08:00:00 1051

原创 Apache Flink连载(十二):Flink集群部署-Flink On Yarn

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Flink可以基于Yarn来运行任务,Yarn作为资源提供方,可以根据Flink任务资源需求动态的启动TaskManager来提供资源。Flink基于Yarn提交任务通常叫做Flink On Yarn,Yarn资源调度框架运行需要有Hadoop集群。

2023-12-13 07:30:00 996

原创 Apache Flink连载(十一):Flink集群部署-Standalone集群部署

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Flink的安装和部署主要分为本地(单机)模式和集群模式,其中本地模式只需直接解压就可以使用,不用修改任何参数,一般在做一些简单测试的时候使用。本地模式在这里不再赘述。集群部署模式主要包含Standalone、Hadoop Yarn 、Kubernetes等,Flink可以借助以上资源管理器来实现分布式计算,目前企业使用最多的是Flink 基于Hadoop Yarn资源管理器模式,本小节我们重点讲解Flink 基于Standalone集群。

2023-12-12 22:52:41 1436

原创 Apache Flink连载(十):Flink集群基础环境搭建-JDK及MySQL搭建

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-12-09 04:00:00 979

原创 Apache Flink连载(九):集群基础环境搭建-Centos7节点配置

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。这里准备5台Linux节点,节点名称和ip信息如下,我们可以从头搭建各个Linux节点也可以基于已有快照创建各个Linux节点。node1node2node3node4node5这里默认已经创建好以上各个节点,并且每个节点分配资源为4核2G,下面进行节点的其他配置。

2023-12-08 01:30:00 1105

原创 Apache Flink连载(八):Apache Flink架构

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-12-07 07:15:00 1006

原创 Apache Flink连载(七):Apache Flink快速入门 - DataStream BATCH模式

关于Flink集群提交任务及Flink flink-conf.yaml配置文件在下个章节集群搭建会进行介绍。以上代码运行完成之后结果如下,可以看到结果与批处理结果类似,只是多了对应的处理线程号。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-12-06 12:36:20 799

原创 Apache Flink连载(六):Apache Flink快速入门 - Flink案例实现

目录1. Flink 批数据处理案例2. Flink流式数据处理案例3. Flink批和流案例总结数据源分为有界和无界之分,有界数据源可以编写批处理程序,无界数据源可以编写流式程序。DataSet API用于批处理,DataStream API用于流式处理。批处理使用ExecutionEnvironment和DataSet,流式处理使用StreamingExecutionEnvironment和DataStream。DataSet和DataStream是Flink中表示数据的特殊类,DataSet处理的数据

2023-12-04 08:00:00 1031

原创 Apache Flink连载(五):Apache Flink快速入门 - 环境准备及入门案例

学习一门新的编程语言时,往往会从“hello world”程序开始,而接触一套新的大数据计算框架时,则一般会从WordCount案例入手,下面以大数据中最经典入门案例WordCount为例,来编写Flink代码,Flink底层源码是基于Java代码进行开发,在Flink编程中我们除了可以使用Java语言来进行编写Flink程序外,还可以使用Scala、Python语言来进行编写Flink程序,在后续章节中我们将会主要使用Java和Scala来编写Flink程序。下面来准备下Flink开发环境。

2023-12-02 07:45:00 1064

原创 Apache Flink连载(四):Flink & 其他实时计算框架对比

根据前文描述我们知道Flink主要处理的是流数据,针对的是实时计算领域,在Flink之前,大数据实时领域中还有Storm、SparkStreaming。Storm是比较早的流式计算框架,后来又出现了SparkStreaming,为了支持SQL Spark后期又推出StructuredStreamig,现在又出现了Flink这种优秀的实时计算框架,那么这几种计算框架到底有什么区别呢?🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-12-01 08:30:00 1138

原创 Apache Flink连载(三):Flink核心特性及应用场景

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-30 05:45:00 1113

原创 Apache Flink连载(二):数据架构演变

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等,伴随这些技术的发展与普及,促使企业数据架构的演进——从传统的关系型数据存储架构逐步演化为分布式处理和存储的架构。我们通过数据架构的演变角度来了解下为什么今天Flink实时计算引擎会爆火起来。

2023-11-29 20:40:31 1310

原创 Apache Flink连载(一):Apache Flink是什么?

Apache Flink 是一个框架和分布式处理引擎,用于在。

2023-11-28 11:40:01 1145

原创 Apache Airflow (十四) :Airflow分布式集群搭建及测试

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-28 11:00:17 1301

原创 Apache Airflow (十三) :Airflow分布式集群搭建及使用-原因及扩展

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-22 06:00:00 1101

原创 Apache Airflow (十二) :PythonOperator

PythonOperator可以调用Python函数,由于Python基本可以调用任何类型的任务,如果实在找不到合适的Operator,将任务转为Python函数,使用PythonOperator即可。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-21 06:45:00 1253

原创 Apache Airflow (十一) :HiveOperator及调度HQL

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-20 11:45:39 1057

原创 Apache Airflow (十) :SSHOperator及调度远程Shell脚本

在实际的调度任务中,任务脚本大多分布在不同的机器上,我们可以使用SSHOperator来调用远程机器上的脚本任务。首先停止airflow webserver与scheduler,在node4节点切换到python37环境,安装ssh Connection包。注意在本地开发工具编写python配置时,需要用到SSHOperator,需要在本地对应的python环境中安装对应的provider package。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-18 06:30:00 1415

原创 Apache Doris (五十四): Doris Join类型 - Bucket Shuffle Join

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-17 11:37:37 960

原创 Apache Airflow (九) :Airflow Operators及案例之BashOperator及调度Shell命令及脚本

准备如下两个shell脚本,将以下两个脚本放在$AIRFLOW_HOME/dags目录下,BashOperator默认执行脚本时,默认从/tmp/airflow**临时目录查找对应脚本,由于临时目录名称不定,这里建议执行脚本时,在“bash_command”中写上绝对路径。在“bash_command”中写执行脚本时,一定要在脚本后跟上空格,有没有参数都要跟上空格,否则会找不到对应的脚本。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-17 11:18:04 1846

原创 Apache Airflow (八) :DAG任务依赖设置

🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。

2023-11-16 22:48:46 1823

window10 bthserv服务注册表文件

部分Windows系统存在bthserv服务丢失导致蓝牙开启后搜索不到设备的现象。 可通过导入bthserv服务注册表文件,重启系统后打开蓝牙相关服务(BTAGService、BluetoothUserService_随机数、bthserv)后解决,此文件在Win10环境亲测可用。

2024-10-20

clickhouse 熔断机制配置文件

clickhouse 熔断机制配置文件

2023-09-20

大数据安全-kerberos技术-openssl安装包,openssl版本:openssl-1.1.1k.tar.gz

大数据安全-kerberos技术-openssl安装包,openssl版本:openssl-1.1.1k.tar.gz

2023-06-07

大数据安全-kerberos技术-kafka安装包,kafka版本:kafka-2.12-3.3.1.tgz

大数据安全-kerberos技术-kafka安装包,kafka版本:kafka_2.12-3.3.1.tgz

2023-06-07

大数据安全-kerberos技术-hbase安装包,hbase版本:hbase-2.2.6-bin.tar.gz

大数据安全-kerberos技术-hbase安装包,hbase版本:hbase-2.2.6-bin.tar.gz

2023-06-07

大数据安全-kerberos技术-zookeeper安装包

大数据安全-kerberos技术-zookeeper安装包,zookeeper版本:apache-zookeeper-3.6.3-bin.tar.gz

2023-06-06

大数据安全-kerberos技术-hive安装包,hive版本:apache-hive-3.1.3-bin.tar.gz

大数据安全-kerberos技术-hive安装包,hive版本:apache-hive-3.1.3-bin.tar.gz

2023-06-06

大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz

大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz

2023-06-06

winutils-master.zip

hadoop各版本hadoop.dll和winutils

2021-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除