自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 04 Spark SQL

大数据领域,SQL 的重要性无需多言,甚至称得上是“万物皆可 SQL 化”。不管是做平台的,还是做应用的,都免不了跟 SQL 打交道。大数据工程师们跟 SQL 的关系紧密。从 Hive/Spark SQL 等最原始、最普及的 SQL 查询引擎,到 Kylin/ClickHouse 等 OLAP 引擎,再到流式的 Flink SQL/Kafka SQL,大数据的各条技术栈,都在或多或少地往 SQL 方向靠拢。缺乏对 SQL 的支持会让自身的技术架构逊色不少,同时也会影响使用的便利性。

2024-04-25 09:48:24 658 2

原创 03 Spark Core基础概念

对DAG进行解析时,在依赖图中进行反向解析,由于从RDD A到RDD B的转换以及从RDD B和F到RDD G的转换,都属于宽依赖,因此,在宽依赖处断开后可以得到三个阶段,即阶段1、阶段2和阶段3。下图RDD 执行过程的实例。需要说明的是,RDD采用了惰性调用(lazy模式),即在RDD的执行过程中(如下图所示),真正的计算发生在RDD的“行动”操作,对于“行动”之前的所有“转换”操作,Spark只是记录下“转换”操作应用的一些基础数据集以及RDD生成的轨迹,即相互之间的依赖关系,而不会触发真正的计算。

2024-04-24 21:54:14 845 3

原创 02. PySpark3程序入口

##业务代码##停止SparkSession释放资源。

2024-04-23 14:49:12 420

原创 01 Pycharm连接服务器Python环境操作Spark

添加SPARK_HOME 和 PYTHONPATH 环境变量。如图可自行选择项目的存放位置;Python解释器默认即可。使用hdfs命令将其上传至hdfs文件系统中。首先创建一个python项目。### 选择 onssh方式。选择ip地址和对应的用户名。一直下一步(next)即可。配置同步项目文件夹位置。统计文本各单词出现频率。

2024-04-16 14:08:38 370 1

原创 Hadoop与Hive单节点环境安装文档

使用Hive自带的schematool工具升级元数据,也就是把最新的元数据重新写入MySQL数据库中。将软件拖入如下页面即可上传。添加阿里时间同步服务器。

2024-03-14 10:37:55 819

原创 dbeaver本地跑源码异常

dbeaver本地跑源码异常处理

2023-02-10 09:39:34 370 1

原创 Microsoft Windows Dynamic Cache Service 服务安装

Microsoft Windows Dynamic Cache的更新程序,用户可以下载后添加到服务中,通过修改注册表来限制动态缓存的最大值,比如设置上限为200M等,这样系统就可以把作为缓存使用的内存设置了上限值。

2023-02-10 09:36:58 657

原创 ubuntu下使用IDEA开发大数据遇到的坑记录

记录bug

2022-05-19 20:18:19 424

原创 centos下利用yum downloadonly构建离线rpm资源包

centos下利用yum downloadonly构建离线rpm资源包1.概述2.版本信息及需要安装的软件3.步骤3.1 先准备离线安装包3.2 国内yum源3.3 使用downloadonly 找到依赖3.参考1.概述yum install --downloadonly 命令用于下载所需要的软件包而并不真正的安装,下载好的软件包方便在没有网络的情况下使用。很多环境下为了安全,是不能直接访问互联网的;另一种场景就是能快速的形成稳定的环境构建模板,方便不同项目复用。这是其价值所在。2.版本信息及需要安

2022-03-09 17:49:33 311

原创 win10环境下的spark2.4源码环境搭建

spark2.4源码环境搭建概述版本信息及环境基础环境准备源码准备IDEA设置1. IDEA内maven插件设置与更新2. jar包添加至需要的classpath参考概述版本信息及环境项目版本备注oswin10jdk1.8scala2.11.12maven5.8.1可使用与源码一致版本sbt1.4未发现作用idea2020.03基础环境准备请自行查阅资料安装如下组件:win10本地安装jdk .win10本地安装

2022-02-17 11:44:50 1931 2

原创 Flink1.11.3 读kafka多流写clickhouse

Flink1.11.3 读kafka多流写clickhouse综述快速开始flink开发项目前置条件maven构建pom依赖说明创建java Bean (POJO类/case class都行)kafka模拟生成器插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入综述快速开始flink开发项

2022-02-09 16:07:02 321

原创 centos7 cdh5.13 部署 confluent

版本信息cdh5.13.0confluent-4.0.3集群规划:机器角色端口node1,node2,node3kafka9092node1,node2,node3zookeeper2181node1,node2,node3schema registry8081node1,node2,node3kafka rest proxy8082node1,node2,node3confluent connector8083node1,no

2022-01-21 11:09:40 344

原创 oracle18c使用debezium1.6配置

版本信息win10oracle18cdebezium1.6概述:主要参考官方文档进行设置,两种CDC技术XStreamlogminer1. Preparing the database1.1 公共配置 Configuration needed for Oracle LogMiner须知:开启日志归档功能需重启数据库,重启期间将导致业务中断,请谨慎操作。归档日志会占用较多的磁盘空间,若磁盘空间满了会影响业务,请定期清理过期归档日志。$ sqlplus /nolog$ CONNE

2021-10-26 13:56:19 111

原创 iceberg0.11.1本地閲讀環境搭建

iceberg本地閲讀環境搭建概述版本下載配置概述版本IDEA 下載配置

2021-09-18 09:39:23 165

原创 Davinci0.3.1接CDH5.3.0的phoenix数据源

Davinci0.3.1接CDH5.3.0的phoenix数据源前言版本说明安装部署jdbc连接phoenix替换jar包将phoenix client包上传至环境最后重启davinci 服务页面效果测试参考前言Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。以上是官方所述,总结下就是一款类似于power bi\Tableau 的数据可视化工具。现在版

2021-09-17 18:15:01 137

原创 CDH6.3.2下使用debezium1.6.1 mysql5.7 记录

[2021-08-04 10:41:38,827] WARN The configuration 'config.storage.topic' was supplied but isn't a known config. (org.apache.kafka.clients.admin.AdminClientConfig:287)[2021-08-04 10:41:38,828] WARN The configuration 'group.id' was supplied but isn't a ...

2021-08-04 17:01:49 1670

原创 CDH6.3.2 kafka使用报错zookeeper.ClientCnxn: Opening socket connection to server xxxxx:2181.

21/08/03 17:02:16 INFO zookeeper.ZooKeeper: Client environment:java.io.tmpdir=/tmp21/08/03 17:02:16 INFO zookeeper.ZooKeeper: Client environment:java.compiler=<NA>21/08/03 17:02:16 INFO zookeeper.ZooKeeper: Client environment:os.name=Linux21/08/03

2021-08-03 17:41:02 1923

这是一个doris fe配置文件

{install_path} 替换为安装路径

2023-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除