自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据也是生产力,保持热爱,奔赴山海!

此地介绍和分享大数据专业ZS,包括企业级的大数据项目案例、数据治理架构+经验以及前沿大数据技术的应用。

  • 博客(41)
  • 收藏
  • 关注

原创 【互联网金融湖仓一体建设实践】

MC 数仓对外表的计算效率虽然低于内表,但是湖到仓的数据抽取只需要执行一次,后续仓内计算效率是Hive 的5倍以上,仓内建模加工效率也是Spark的2倍左右。认证信息、HDFS 读写服务,可以读取 HMS 的 Hive 表元数据,将。1) 用户的数据湖不能满足数仓的多租户、安全隔离、Serverless、2)创建OSS和VPC中的Hadoop实例的外部服务对象,将数据。将OSS目录数据识别为表的结构,MC可以读取DLF探查的OSS元。不冗余存储DLF或HMS的元数据,不冗余存储OSS或HDFS的数。

2024-07-11 10:42:34 614

原创 【Hive的架构组成】

【Hive的架构组成】

2024-07-11 10:23:00 167

原创 【ROMA核心特性数据、服务、消息、设备集成及统一运维】

FDI旨在解决多种数据源的快速灵活集成能力,您可以在任意时间、任意地点、任意系统之间实现实时数据订阅和定时增量数据迁移。(1)数据集成任务的生命周期管理(2)FDI支持修改数据集成任务的信息、查看数据集成任务的运行报告、查看数据集成任务的运行日志、查看数据集成任务状态,完成数据集成任务的生命周期管理功能。(1)灵活的数据读写支持 MySQL、文本文件、消息、API等多种数据的分片读取和写入。

2024-05-06 17:06:39 1064

原创 【ROMA解决方案和功能架构】

1、基于ROMA融合集成平台,实现企业应用、数据、API 、OT设备、云服务、合作伙伴应用之间的集成连接。2、ROMA主要包含四个组件:数据集成(Fast Data Integration,简称FDI)、服务集成(API Connect,简称APIC)、消息集成(Message Queue Service,简称MQS)、设备集成(LINK)。

2024-04-23 10:33:25 1272 1

原创 【Python创建专属二维码】

【代码】【Python创建专属二维码】

2024-04-23 10:20:24 223

原创 【你发现了吗?其实你早就变了一个人】

你发现了吗?其实你早就变了一个人!不信你看看现在的自己。总有一天你会笑着说出哪些令你痛苦的事情!

2024-04-15 08:22:20 135

原创 【Spark性能调优-配置进程参数】

(2) 将“spark-defaults.conf”中的“spark.executor.memory”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_MEMORY”配置项设置为合适大小。(2) 将“spark-defaults.conf”中的“spark.executor.cores”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_CORES”配置项设置为合适大小。(1) Driver负责任务的调度,和Executor、AM之间的消息通信。

2024-04-09 17:48:04 510

原创 20240401寄语

生活不简单,尽量简单过。时间就是一颗药,你掌握好了它便是解药,你肆意挥霍它,便是毒药。不喧,不吵,静静地守着岁月。不怨,不悔,淡淡地对待自己。别紧张,深呼吸,坚持住,扛过去!

2024-04-01 11:40:42 148

原创 【Flink技术原理构造及特性】

Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。

2024-04-01 11:26:09 1059

原创 神舟通用-神通MPP

政府、军队、军工、金融(银行、保险、证券)、电信、航天、邮政、能源(电力、煤炭、石油、天然气)、互联网、交通运输、制造业、教育、医疗医药、农林水利、环保、烟草、物流、税务、审计、原材料、城建、文化、旅游、服务业、材料、化工、矿产等面向海量数据联机分析业务提供数据仓库支持。采用行列混合压缩存储引擎,通过压缩机制降低系统存储采购成本,提供多级的压缩机制,加载后数据不膨胀,压缩状态下查询性能不下降,为系统节省存储空间。具有行式存储引擎、列式存储引擎、行列混合存储引擎,可根据不同业务场景选择适应的存储方式。

2024-03-13 11:11:05 398

原创 20240312寄语

世界那么大,想叛逆一下下!^^^

2024-03-12 16:51:36 264

原创 银河麒麟V10SP3操作系统-网络时间配置

其中 dd 代表日期 HH 代表小时,MM 代表分钟,SS 代表秒数,均需两位表示。基于 UTC 时间来配置系统时间,需要以 root 用户运行以下命令修改,示例如下。系统默认时间配置基于 UTC,如果想基于本地时间来配置系统时间,需要以 root 用户运行以下命令修改。系统默认时间配置基于本地时间,如果想基于 UTC 时间来配置系统时间,需要以 root 用户运行以下命令修改。系统时间通常还保持一套世界统一时间(UTC),用于转换系统的不同时区,本地时间就是用户所在时区的真实时间。

2024-03-12 16:44:51 3676 1

原创 银河麒麟服务器操作系统V10SP3

银河麒麟服务器操作系统V10SP3是一款直接面向kernel根社区,基于openEuler社区构建强安全、高可靠的国产Linux操作系统。具备CPU架构同源支持、自主平台优化、云原生支持、可管理型、高可用性和内生本质安全六大特性优势。

2024-03-04 16:12:18 3466

原创 架构设计方法(4A架构)-技术架构

技术架构将实现从传统垂直、封闭式的IT架构转变为云化的开放架构,辅以运营、运维、安全三大支柱,打造云化的IT统一技术平台,以支撑数字化转型落地。

2024-03-04 12:44:58 658

原创 架构设计方法(4A架构)-应用架构

1、应用服务应归集到不同的应用系统模块。应用系统模块基于业务对象进行识别,同时考虑团队因素,一般与服务全功能团队规模相匹配。2、应用服务是处理一个业务对象的业务活动的逻辑功能集合。应用服务的功能应独立且完整,应用服务应“可度量、可定价、有价值”。

2024-03-04 10:22:16 1335

原创 架构设计方法(4A架构)-信息架构

属性是用来描述所属业务对象的性质和特征。1、考虑技术约束和考量、应用要求、性能要求,支撑详细的数据需求和业务规则的实施,设计出的数据在IT系统中的具体存储结构。2、是面向计算机物理表示的具体实现模型,与具体的DBMS类型有关。

2024-03-01 13:50:29 890

原创 架构设计方法(4A架构)-业务架构

依据企业架构标准组织The Open Group的定义,企业架构描述构成企业的要素和要素之间关系,以及用于管控架构设计和演进的原则和指引。1、价值流是一组端到端的活动集合,能够为外部客户或内部用户创造一个有价值的结果。2、有别于流程,主要描述企业为他的客户创造什么价值以及如何创造价值。1、业务能力定义是业务自身拥有或者从外部获取的特定能力,以实现某一特定目的和结果。2、业务能力的输出本质上是从不同维度对TOBE业务能力的构建设计,需要参考行业趋势和领先实践。

2024-02-28 10:18:16 6514

原创 Flink应用场景

Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。(2)在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核心,其状态可以达到 TB 级别,且仍能保持高吞吐、低延迟的特性。

2024-02-27 11:34:03 982

原创 华为大数据平台-FusionInsight MRS

关于华为的大数据平台,MRS是集成一些开源的大数据组件,有自己的运维和安全管理系统Manager,中间也做了一些默认的集成,比如Hudi和Hive的同步数据等等。

2024-02-27 11:08:04 1722

原创 六张图诠释IT人的一生!!!

六张图诠释从事IT人员的一生!!!

2024-02-26 10:14:01 116

原创 数据质量-质量管理

数据治理管理

2024-02-26 10:03:42 379

原创 数据质量-基本概念和定义

数据治理基本概念和定义

2024-02-23 16:59:19 418

原创 Linux部署安装Jdk1.8详细教程(附带资源包)

Linux部署安装jdk1.8

2024-02-22 17:03:43 354

原创 Linux部署单机Redis

Linux单机部署安装Redis

2024-02-22 16:56:01 148

原创 20240222寄语

聪明的人,今天做明天的事;懒惰的人,今天做昨天的事;糊涂的人,把昨天的事也推给明天。愿你做一个聪明的孩子!愿你做一个时间的主人!

2024-02-22 11:30:55 75

原创 数据治理核心方法和思路

数据资产梳理、数据建模、数据标准、数据治理、数据汇聚、数据联接、数据服务及应用。

2024-02-22 10:18:49 979

原创 20240123寄语

20240123寄语

2024-01-23 10:00:17 378

原创 帆软FineBI连接外置数据库进行报表开发

1、登录FlineBI系统,系统管理-常规-外接数据库,修改成想用得外置数据库。2、输入数据用户名、密码、IP、启用新数据库。3、FineBI默认上传JDBC驱动Jar包是不能直接上传的,可以在外置数据库将fine_conf_entity中的SystemConfig.driverUpload修改成true,没有这个字段可手动添加,然后重启即可。4、数据连接-数据连接管理 ,上传需要连接数据库的JDBC驱动。5、数据连接管理-新建数据连接,选择其他-其他JDBC,驱动选择自定义,直接填写URL选择

2024-01-23 09:50:30 1748

原创 nscos注册中心Linux环境单机部署

以mysql数据库为例,新建一个nacos数据库,解压nacos压缩包,在nacos/conf下找到nacos-mysql.sql文件,在刚刚新建的nacos库中执行nacos-mysql.sql的脚本,完成建表操作。修改conf/application.properties文件,增加支持mysql数据源配置,添加mysql数据源的url、用户名和密码。Linux系统在nacos/bin目录下执行 ./startup.sh -m standalone。ip+端口+/nacos。

2024-01-09 19:54:40 501

原创 20240109寄语

先学会活着,再学着生活!

2024-01-09 13:47:00 370

原创 Hudi SQL语法

通过MERGE INTO命令,根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行UPDATE或DELETE,无法匹配的执行INSERT。1、trict模式,Insert 语句将保留 COW 表的主键唯一性约束,不允许重复记录。如果在插入过程中已经存在记录,则会为 COW 表抛出异常,对于MOR表,该模式与upsert模式行为一致。Hudi对于设置了主键的表支持三种Insert模式,默认为upsert。3.当前仅支持对COW表进行更新时,目标表的字段出现在更新表达式的右值。

2024-01-03 15:41:28 863

原创 ClickHouse表引擎

当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。在写入数据时,该系列引擎表会按照分区键将数据分成不同的文件夹,文件夹内每列数据为不同的独立文件,以及创建数据的序列化索引排序记录文件。该结构使得数据读取时能够减少数据检索时的数据量,极大的提高查询效率。后台执行合并操作时才会进行数据的预先聚合,而合并操作的执行时机无法预测,所以可能存在部分数据已经被预先聚合、部分数据尚未被聚合的情况。

2024-01-03 14:25:43 911

原创 20240103寄语

到了某个年纪之后,应该明白,真正能让自己走远的,都是自律,积极和勤奋。

2024-01-03 10:10:53 342

原创 Linux设置磁盘永久挂载

两种方法,一种直接磁盘目录+挂载目录+格式(目录移动会消失),还有一种是UUID,查看UUID命令:blkid。2、格式化磁盘可以选用多个格式包括EXT4、XFS等mkfs.ext4 /dev/vdb 或mkfs.xfs /dev/vdb(EXT4最大支持16TB,XFS最大支持8EB,择优选择)

2024-01-02 11:13:48 1455

原创 20240102寄语

2024年,大数据技术人打工的第一天,是开始,也是结束。

2024-01-02 09:54:15 353

原创 神通MPP系统表与视图

神通MPP系统表与视图

2023-12-29 17:21:02 366

原创 IT搞笑时刻,你遇到过么?

世界上最远的距离,是我在if里你在else里,虽然经常一起出现,但却永不结伴执行。

2023-12-29 16:32:43 398

原创 Oracle创建视图,赋予用户权限

create or replace view 视图 as select * from 表名;grant select any dictionary to 用户;grant select any table to 用户;grant create view to 用户;

2023-12-28 10:38:26 1146

原创 国产化自研-全栈式大数据治理平台

欢迎各领域合作,共建数字化企业!!

2023-12-27 15:33:30 395

原创 Pyscharm编写Python程序连接神通数据库、神通MPP

STPython\神通数据库\神通MPP

2023-12-26 16:54:20 208

Kettle 3.0用户手册(详细)

Kettle组件架构及用户操作详细说明

2024-07-15

神通(MPP)数据库-开发手册(详细)

神通-通用库和神通MPP操作及开发详细手册

2024-07-15

通用简历模板(精品设计)

每一次就业,都是给自己一次机会。

2024-07-11

【linux安装部署jdk1.8】

【linux安装部署jdk1.8】

2024-02-22

Redis单机部署6.2.6版本

用于redis部署

2024-02-22

数据资产盘点模板(逻辑,物理)

用于前期数据调研,数据资产梳理模板

2024-02-22

PPT模板通用,项目汇报、作图

PPT模板通用,项目汇报、作图

2024-01-02

jdk1.8-linux

jdk1.8附安装步骤

2023-12-28

服务器配置bond详细操作

服务器配置bond详细操作命令,包含bond添加,删除操作,可自己生成Shell脚本,增加bond配置效率。

2023-12-27

神通数据库/MPP-Python解释器模块

PythonShenTong,用Python操作神通数据库、神通MPP

2023-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除