secretWHD-CSDN博客

原创第二步 CDH6.3.2升级Flink至1.12.7

CDH6.3.2升级Flink至1.12.7

2022-06-16 10:19:47 994

原创第一步 CDH6.3.2集成自制Flink1.12.7

修复CDH中Flink的log4j漏洞

2022-06-16 10:13:33 1219

原创 Doris 粗学笔记

Doris 粗学笔记，主要是了解Doris的特性和基本操作

2022-06-07 10:17:50 2736

转载伴鱼数据质量平台实践+DolphinScheduler调度

日常工作中，数据开发、数仓开发工程师开发上线完一个任务后并不是就可以高枕无忧了，时常会因为上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而这个问题的发现可能会经历一个较长的周期（尤其是离线场景），往往是业务方通过上层数据报表发现数据异常后 push 数据方去定位问题（对于一个较冷的报表，这个周期可能会更长）。同时，由于数据加工链路较长需要借助数据的血缘关系逐个任务排查，也会导致问题的定位难度增大，严重影响开发人员的工作效率。更有甚者，如果数据问题没有被及时发现，可能导致业务方作出

2022-04-27 17:45:54 2031

转载 Flink Table 的三种 Sink 模式

作为计算引擎 Flink 应用的计算结果总要以某种方式输出，比如调试阶段的打印到控制台或者生产阶段的写到数据库。而对于本来就需要在 Flink 内存保存中间及最终计算结果的应用来说，比如进行聚合统计的应用，输出结果便是将内存中的结果同步到外部。就 Flink Table/SQL API 而言，这里的同步会有三种模式，分别是 Append、Upsert 和 Retract。实际上这些输出计算结果的模式并不限于某个计算框架，比如 Storm、Spark 或者 Flink Da...

2022-01-05 18:28:34 2249

原创 CDGA考后感

20211227 下午2点-3点半考试，谈谈考后感想CDGA考试主要是考理论，考理解；CDGP才是考技术。不算是背，有些概念平时工作中遇到了，多刷题，自然能够熟悉，所以不需要背，靠理解。考的知识点足够细，到扣字样的程度，当然就几道题是这样，还有些题目选项是书中没有的，是相关技术概念的衍生物或实际情况(因为备考书是翻译过来的，出题人也是国内的，所以考题会根据国内的实际情况来考，这点很好)大部分的考点主要还是书中的，所以备考要多看书，多看书，多看书，重要是事情说三遍。然后在结合练习题，熟悉的出题

2021-12-27 00:39:02 4054 7

原创《DAMA数据管理知识体系指南》整体介绍

从整本书的目录第一章：数据管理第二章：数据处理伦理第三章：数据治理第四章：数据架构第五章：数据建模和设计第六章：数据存储和操作第七章：数据安全第八章：数据集成和互操作第九章：文件和内容管理第十章：参考数据和主数据第十一章：数据仓库和商务智能第十二章：元数据管理...

2021-11-01 23:44:16 2546

原创 Docker 搭建完全分布式CDH集群

前言基于前面的搭建，就会发现三台容器都是发布到一台物理机上，在一台物理机上实现了CDH集群的效果，这拿来测试还行，当时实际环境下，资源是远远不够用的。接下来，将基于前面的的步骤，使用安装包搭建完全分布式的CDH集群，在多个物理机上时间CDH集群的搭建。跨服务容器之间的通讯问题是搭建完全分布式CDH集群的难点，这里将使用Dokcer Swarm网络解决了这个问题。1. 拷贝安装包将镜像安装包拷贝到各个节点主节点拷贝 master-serv...

2021-10-27 22:00:13 4309 26

原创安装篇2 - 安装CDH

登陆Cloudera Manager平台http://192.168.60.100:7180 账号密码：admin/admin1.11.21.3 免费2.12.22.32.4 选择CDH和Flink2.5将parcel包内的Hadoop，Hive等组件分发到各个节点进行解压激活2.63.1 自行选择自定义选择Zookeeper，HDFS，Yarn，Hive3.2 DataNode和Zo......

2021-10-27 21:30:32 1497 1

原创 Linux安装DolphinScheduler集群

自行下载DS二进制安装包以下步骤只需在一台节点上执行，一键部署后，会将程序分发到集群中，是不是很贴心1. 解压将下载的安装包拷贝到Linux内mkdir -p /opt/dolphinscheduler \ && tar -zxvf /root/dolphinscheduler-1.3.8-bin.tar.gz -C /opt/dolphinscheduler \ && cd /opt/dolphinscheduler \ && mv

2021-10-21 00:07:03 1007

原创第一次 flinkx任务分配资源测试

FlinkX1.10 设置-confProp，最终测试得出结论：说明-confProp的jobmanager.memory.mb参数有效，读取flink-conf.Prop的jobmanager.heap.size参数无效说明-confProp的taskmanager.memory.mb参数未生效，读取flink-conf.Prop的taskmanager.memory.mb参数有效说明-confProp的parallelism.default参数未生效，读取flink-conf.Prop的

2021-10-19 23:21:39 1027

原创 Flink多任务多启动模式同时进行

不知你们遇到过这样得问题没：ERROR org.apache.flink.runtime.entrypoint.ClusterEntrypoint - Could not start cluster entrypoint YarnJobClusterEntrypoint.org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint

2021-10-18 23:16:54 3382 1

原创第二次 Flinkx任务资源分配测试

测试版本为FlinkX1.10最终的测试结果：设置parallelism并行度，在json文件的speed.channel里配置设置taskmanger内存，在flink-conf.yaml的taskmanager.memory.process.size里配置设置slot个数，在flinkx-conf.yaml的taskmanager.numberOfTaskSlots里配置-confProp只有配置jobmanager.memory.mb才有生效，其他配置都不生效yarn 配置.

2021-10-17 18:09:50 652

转载 git clone 出现fatal: unable to access ‘https://github 类错误解决方法

git clone 遇到问题：fatal: unable to access 'https://github.comxxxxxxxxxxx': Failed to connect to xxxxxxxxxxxxx将命令行里的http改为git重新执行。比如 git clone git://github.comxxxxxxxxxx

2021-10-12 17:29:28 2668 1

原创安装篇1 - 分发启动集群容器

到这一步已经可以拿去现场部署了，asrservermaster.tar.gz 和asrserverslave.tar.gz已经环境搭建好，接下来展示到现场如何安装现场宿主机的环境提前准备好，集群规模在一台宿主机上分三个节点，分别是server001,server002,server003这三台1.创建集群网络docker network create --subnet=172.30.0.0/24 cdh-net \ && docker network ls \ &am.

2021-10-05 09:21:08 2913 12

原创制作篇3 - 制作agent-server镜像包

1. 创建并运行agent容器docker run -d \--hostname agentserver \--name agentserver \--privileged=true \server/bashimage \/usr/sbin/init \&& docker ps结果：9bba31143dcf70a4775a7d20085ea277f940f67e132cfe9b8d7001fa92189d87CONTAINER ID IMAGE

2021-10-05 08:59:42 3950

原创数据管理成熟度评估

定义：对组织内处理数据的实践进行评级的方法，以描述数据管理的当前状态以及对其组织的影响目标： 1. 全面发现和评估整个组织的关键数据管理活动 2. 向利益相关方介绍数据管理的概念、原则和实践，并在更广泛的背景下确定其作为数据创建者和管理者的角色和职责 3. 建立或加强可持续的企业范围数据管理计划，以支持运营和战略目标等级描述： 0级：无能力级 1级：初始级或临时级：成功取决于个人的能...

2021-09-27 23:57:24 766

原创大数据和数据科学

定义：对多种不同类型的数据进行收集（大数据）和分析（数据科学、分析、可视化），以此来从未知的问题中找到答案目标： 1. 发现数据和业务的联系 2. 支持将数据源迭代集成到企业中 3. 发现和分析可能影响到业务的因素 4. 利用可视化技术，以恰当的，可靠的且符合道德规范的方式来发布数据...

2021-09-27 23:46:10 272

原创数据质量

定义：为确保满足数据消费者的需求，应用数据管理技术进行规划、实施和控制等管理活动目标： 1. 根据数据使用者的需求，开发一种让数据符合用途的管理方法 2. 作为数据生命周期的一部分，定义数据质量控制的标准、要求和规范 3. 定义和实施测量、监控和报告数据质量水平的过程 4. 通过过程和系统的改进、识别和提倡数据质量的机会数据质量的6个核心维度：完整性唯一性...

2021-09-26 23:32:58 221

原创元数据管理

定义：通过计划、实施和控制活动确保访问到高质量的、整合的元数据目标： 1. 提供企业可理解的业务术语并使用它 2. 从不同来源采集和整合元数据 3. 提供访问元数据的标准方法 4. 确保元数据质量与安全元数据最常见的定义是“关于数据的数据”，它描述了数据本身（如数据库，数据元素，数据模型），数据表示的概念（如业务流程，应用系统，软件代码，技术基础设施），数据与概念之间的联系...

2021-09-26 23:13:22 230

原创数据仓库和商务智能

定义：通过规划、实施和控制过程，来提供决策支持数据，支持从事报告、查询和分析的知识工作者目标： 1. 建立和维护提供集成数据所需的技术环境、技术和业务流程，以支持运营功能、合规性要求和商务智能活动 2. 支持和赋能知识工作者进行有效的业务分析和决策简单的讲： 1. 支持商务智能活动 2. 赋能商务分析和高效决策 3. 基于数据洞察寻找创新方法...

2021-09-26 23:05:06 161

原创第十章参考数据和主数据

定义：管理共享数据以满足组织目标，减少与数据冗余相关的风险，确保更高的质量，并降低数据整合的成本目标： 1. 在一个组织内，跨业务领域的应用程序能够共享信息资产 2. 提供权威的，经过协调的和质量评估的参考数据和主数据来源 3. 通过使用标准、通用数据模型和集成模式降低成本和复杂度好处： 1. 通过使用一致的参考数据，满足多个项目的数据需求，降低数据整合的风险和成本 2. 提升参考数...

2021-09-24 23:36:17 818

原创文件和内容管理

定义：对任何形式或媒介的数据及信息进行生命周期的管理，所计划、实施和控制的活动目标： 1. 履行与档案管理有关的法律义务并达到客户的期望 2. 确保能够高速有效的存储、检索、使用文件和内容 3. 确保结构化和非结构化内容之间的集成能力文件和内容管理是针对数据和信息的管理文件和内容管理是针对存储在关系型数据库之外的数据的管理文件和内容管理是针对信息的采集、存储、访问和使用过程的管理文件和内容管理是针对存储在关...

2021-09-24 23:25:49 425

原创数据集成和互操作

定义：管理应用程序和组织内部（或之间）的数据移动和整合活动目标： 1. 按照所需格式、及时地提供安全、合规的数据 2. 构建开发共享模型和接口，降低解决方的成本和复杂度 3. 识别有意义的事件，自动触发预警和动作 4. 支撑商务智能、数据分析、主数据管理，并致力于提高运营效率数据集成和互操作描述了数据在不同的数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。...

2021-09-23 23:23:14 803

原创数据安全

定义：定义、规划、开发、执行安全策略和规程，以提供对数据和信息资产的适当验证、授权、访问和审计目标： 1. 启用对企业数据资产的适当访问，并防止不适当的访问 2. 理解并遵守所有有关隐私、保护和保密的法规和政策 3. 确保所有利益相关方的隐私和保密需求得到执行和审计...

2021-09-23 23:12:51 164

原创数据存储和操作

定义：对存储数据的设计、实施和支持，最大化实现数据资源的价值贯穿与数据创建、获取到处置的整个生命周期目标： 1. 贯穿整个数据生命周期、管理数据的可用性 2. 确保数据资产的完整性 3. 管理数据交易的性能...

2021-09-23 22:59:57 270

原创数据建模和设计

定义：数据建模是一个过程数据建模是发现、分析和确定数据需求的过程，然后采用数据模型的精确形式表示和传递这些数据需求。目标：确认并记录不同视角对数据需求的理解，确保应用程序更符合当前和未来的业务需求，为更多的数据应用或数据管理奠定一个良好的基础数据模型有助于组织能够理解其数据资产 ...

2021-09-23 22:49:49 436

原创数据架构

定义：识别企业的数据需求（无论数据结构如何），并设计和维护总蓝图以满足这些需求。使用总蓝图来指导数据集成、控制数据资产，并使数据投资与业务战略保持一致目标： 1. 数据存储和处理需求 2. 设计结构和计划一满足企业当前和长期的数据需求 3. 战略性地为组织做好准备、快速发展其产品、服务和数据，以利用新兴技术中固有的商机数据结构的目标就是在业务战略和技术实现之间建立起一座通畅的桥梁。数据架构是数据管理的基础。...

2021-09-23 22:42:13 758

原创第三章数据治理

数据治理是对数据资产管理的一系列活动数据治理是对数据资产管理行使权力、控制和共享决策（规划、监测和执行）的一系列活动数据治理的目的：确保数据管理制度和最佳实践能够正确地管理数据数据治理的目标： 1. 提升企业管理数据资产的能力 2. 定义、批准、沟通和实施数据管理的原则、政策、程序、工具和责任 3. 监控和指导政策合规性、数据使用和管理活动...

2021-09-22 23:56:51 473

原创数据处理伦理

保护数据的动机很大程度上来自法律法规的要求，然而，数据能够描述人的特征，所以数据管理人员保护数据不仅要遵循法律约束，而且要有伦理因素数据处理伦理是指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据伦理处理目标： 1. 定义数据处理的伦理规范 2. 了解不正当处理带来的风险 3. 改变或渗透数据处理的行为文化 4....

2021-09-22 23:35:14 1809

原创第一章数据管理

数据管理是一个过程数据管理是一个需要执行和监督的过程数据管理是一个按照规章制度执行和监督的过程数据管理是在整个生命周期中按照规章制度执行和监督的过程数据管理是在整个生命周期中按照规章制度执行和监督的过程，是为了提升价值数据管理是在整个生命周期中按照规章制度执行和监督的过程，是为了提升数据和信息资产的价值数据管理是在整个生命周期中按照规章制度执行和监督的过程，是为了在交互、控制、保护的过程中提升数据和信息资产的价值...

2021-09-22 23:08:19 436

原创制作篇2 - 制作CDH master-server镜像包

前言根据CDH安装流程来看，需要分别安装cloudera-manager-server节点和 cloudera-manager-agent节点，两者安装步骤和安装包不一样，也是考虑到后续方便给CDH添加新节点，所以单独将这两个节点安装到不同的容器内接下来先安装cloudera-manager-server节点的内容1. 创建并运行server容器创建运行容器参数说明：参数说明 -d 后台运行容器 -name 容...

2021-09-18 09:28:03 1764 3

原创制作篇1 - 宿主机准备制作环境

前言这是为了完成CDH manager镜像和agent镜像准备的制作环境，这个步骤可以在虚拟机上完成准备，只是制作镜像包，还不涉及安装部署。准备环境1. 更新yum源yum install -y vim wget ntp net-tools \&& mkdir -p /etc/yum.repos.d/repo_bak \&& mv /etc/yum.repos.d/*.repo /etc/yum.repos.d/repo_bak/ \&....

2021-09-15 23:55:41 1800

原创绝对实用-Docker单节点和跨服务搭建CDH6.3.2集群

前言承蒙朋友的关照，让我在短时间内从零学会安装使用CDH和Docker，并将其融会贯通，完成Docker搭建CDH集群的工作。在这我也将整个安装流程和心得，尽可能详细的阐述清楚，让各位在安装搭建之路上，少走弯路，理清思路。本制作安装的全部流程，在虚拟机，阿里云，腾讯云上都可实践制作部署，使用的版本情况：CentOS 7，CDH6.3 ，MySQL5.7 ，JDK1.8 等。根据Docker特性和CDH的安装流程，按如下图进行操作：大概流程就是制作...

2021-09-15 23:21:35 2801 9

原创 FlinkX各种模式的启动脚本和解释

官方启动参数说明名称说明可选值是否必填默认值 mode 执行模式，也就是flink集群的工作模式 1.local: 本地模式 2.standalone: 独立部署模式的flink集群 3.yarn: yarn模式的flink集群，需要提前在yarn上启动一个flink session，使用默认名称"Flink se

2021-08-30 23:15:17 1037

原创 window安装IDEA启动DolphinScheduler

前言即使官方给了装教程，但随着版本的更新难免有点差异，安装并不能一步到位。所有在这我将根据自己的实际情况，参照官方教程做了些步骤上的修改和给新用户做点提示。 1. 安装请按步骤走完，启动成功后，在自行随意探索捯饬 2. java环境不能少，ZK必备，DS全程在IDEA上就能完成前后端的启动，前端无需在使用VSCode 3. 启动流程 zkServer.cmd -> MasterServer -> WorkerServer ...

2021-08-30 22:43:59 2222 3

原创 Canal实例

首先使用canal监控源的变化，且canal只能监控mysql源，需要对方的mysql需要开启binlog日志，并重启mysql。对方mysql提供给我们的登录账号需要 select,replication slave,replication client权限，binlog为什么需要这些权限：Select权限代表允许从表中查看数据 Replication client权限代表允许执行show master status,show slave status,show binary logs命令 Rep

2021-07-22 15:39:10 775 1

原创谈谈近期安装CDH的感想

首先不要盲目按照博客上的安装流程走，由于个人理解的问题，或者写博客不够仔细，有些细节的地方并没有写明清楚，导致小白按照流程走，出现各种错误，再去一个个排查错误，弄得心烦意乱，甚至走偏其次，初次安装时，可以多看看各类的博客，了解大概的安装流程，工作原理，对比不同，做到心中有点底，在去尝试安装，第一次难免出错，循序渐进，查漏补缺，在多安装几次，总是能够成功的最后心态问题，操作过程中，即使遇到不懂的地方，休息下走走，按照自己的逻辑梳理下，这步卡住是不是那里漏操作？对于我现安装的要求是不是可以...

2021-06-16 00:01:46 238 1

转载 CDH6大数据集群离线安装

https://blog.csdn.net/hantangsongming/article/details/115732700

2021-06-15 17:17:22 306

原创 Mysql同步到Hive实例

Mysql同步到Hive实例以下实例均为本地模式下运行完成，主要是针对Mysql数据同步到Hive的实例说明。将介绍mysqlreader和hivewrite的所有参数配置的使用。mysqlwrite参数说明：https://github.com/DTStack/flinkx/blob/1.10_release/docs/offline/reader/mysqlreader.mdhiveread参数说明：https://github.com/DTStack/flinkx/blob/1.10_relea

2021-06-12 14:51:05 2391

canalClient.zip

空空如也