![](https://img-blog.csdnimg.cn/direct/d74560638e964aaa8df5ad4b16fb4e12.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据技术栈
文章平均质量分 72
大数据KTV
王百万_
欢迎来到大数据技术人的浪漫圣地,不要让工作成为生活的全部,你也可以有诗和远方!
展开
-
【互联网金融湖仓一体建设实践】
MC 数仓对外表的计算效率虽然低于内表,但是湖到仓的数据抽取只需要执行一次,后续仓内计算效率是Hive 的5倍以上,仓内建模加工效率也是Spark的2倍左右。认证信息、HDFS 读写服务,可以读取 HMS 的 Hive 表元数据,将。1) 用户的数据湖不能满足数仓的多租户、安全隔离、Serverless、2)创建OSS和VPC中的Hadoop实例的外部服务对象,将数据。将OSS目录数据识别为表的结构,MC可以读取DLF探查的OSS元。不冗余存储DLF或HMS的元数据,不冗余存储OSS或HDFS的数。原创 2024-07-11 10:42:34 · 611 阅读 · 0 评论 -
【Hive的架构组成】
【Hive的架构组成】原创 2024-07-11 10:23:00 · 163 阅读 · 0 评论 -
【ROMA核心特性数据、服务、消息、设备集成及统一运维】
FDI旨在解决多种数据源的快速灵活集成能力,您可以在任意时间、任意地点、任意系统之间实现实时数据订阅和定时增量数据迁移。(1)数据集成任务的生命周期管理(2)FDI支持修改数据集成任务的信息、查看数据集成任务的运行报告、查看数据集成任务的运行日志、查看数据集成任务状态,完成数据集成任务的生命周期管理功能。(1)灵活的数据读写支持 MySQL、文本文件、消息、API等多种数据的分片读取和写入。原创 2024-05-06 17:06:39 · 1057 阅读 · 0 评论 -
【Spark性能调优-配置进程参数】
(2) 将“spark-defaults.conf”中的“spark.executor.memory”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_MEMORY”配置项设置为合适大小。(2) 将“spark-defaults.conf”中的“spark.executor.cores”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_CORES”配置项设置为合适大小。(1) Driver负责任务的调度,和Executor、AM之间的消息通信。原创 2024-04-09 17:48:04 · 506 阅读 · 0 评论 -
【Flink技术原理构造及特性】
Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。原创 2024-04-01 11:26:09 · 1055 阅读 · 0 评论 -
神舟通用-神通MPP
政府、军队、军工、金融(银行、保险、证券)、电信、航天、邮政、能源(电力、煤炭、石油、天然气)、互联网、交通运输、制造业、教育、医疗医药、农林水利、环保、烟草、物流、税务、审计、原材料、城建、文化、旅游、服务业、材料、化工、矿产等面向海量数据联机分析业务提供数据仓库支持。采用行列混合压缩存储引擎,通过压缩机制降低系统存储采购成本,提供多级的压缩机制,加载后数据不膨胀,压缩状态下查询性能不下降,为系统节省存储空间。具有行式存储引擎、列式存储引擎、行列混合存储引擎,可根据不同业务场景选择适应的存储方式。原创 2024-03-13 11:11:05 · 395 阅读 · 0 评论 -
Flink应用场景
Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。(2)在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核心,其状态可以达到 TB 级别,且仍能保持高吞吐、低延迟的特性。原创 2024-02-27 11:34:03 · 978 阅读 · 0 评论 -
华为大数据平台-FusionInsight MRS
关于华为的大数据平台,MRS是集成一些开源的大数据组件,有自己的运维和安全管理系统Manager,中间也做了一些默认的集成,比如Hudi和Hive的同步数据等等。原创 2024-02-27 11:08:04 · 1678 阅读 · 0 评论 -
帆软FineBI连接外置数据库进行报表开发
1、登录FlineBI系统,系统管理-常规-外接数据库,修改成想用得外置数据库。2、输入数据用户名、密码、IP、启用新数据库。3、FineBI默认上传JDBC驱动Jar包是不能直接上传的,可以在外置数据库将fine_conf_entity中的SystemConfig.driverUpload修改成true,没有这个字段可手动添加,然后重启即可。4、数据连接-数据连接管理 ,上传需要连接数据库的JDBC驱动。5、数据连接管理-新建数据连接,选择其他-其他JDBC,驱动选择自定义,直接填写URL选择原创 2024-01-23 09:50:30 · 1692 阅读 · 0 评论 -
Hudi SQL语法
通过MERGE INTO命令,根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行UPDATE或DELETE,无法匹配的执行INSERT。1、trict模式,Insert 语句将保留 COW 表的主键唯一性约束,不允许重复记录。如果在插入过程中已经存在记录,则会为 COW 表抛出异常,对于MOR表,该模式与upsert模式行为一致。Hudi对于设置了主键的表支持三种Insert模式,默认为upsert。3.当前仅支持对COW表进行更新时,目标表的字段出现在更新表达式的右值。原创 2024-01-03 15:41:28 · 857 阅读 · 0 评论 -
ClickHouse表引擎
当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。在写入数据时,该系列引擎表会按照分区键将数据分成不同的文件夹,文件夹内每列数据为不同的独立文件,以及创建数据的序列化索引排序记录文件。该结构使得数据读取时能够减少数据检索时的数据量,极大的提高查询效率。后台执行合并操作时才会进行数据的预先聚合,而合并操作的执行时机无法预测,所以可能存在部分数据已经被预先聚合、部分数据尚未被聚合的情况。原创 2024-01-03 14:25:43 · 909 阅读 · 0 评论 -
国产化自研-全栈式大数据治理平台
欢迎各领域合作,共建数字化企业!!原创 2023-12-27 15:33:30 · 391 阅读 · 0 评论