大数据生态
文章平均质量分 80
Greenplum的安装与使用
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
贾斯汀玛尔斯
点赞、收藏加关注,追fun不迷路
展开
-
seatunnel常用集群操作命令
SeaTunnel Engine 提供了一个命令行工具,用于管理 SeaTunnel Engine 的作业。您可以使用命令行工具提交、停止、暂停、恢复、删除作业,查看作业状态和监控指标等。原创 2024-11-12 14:36:15 · 19 阅读 · 0 评论 -
解决seatunnel集群脑裂
SeaTunnel Engine 是一个由社区开发的用于数据同步场景的引擎,作为 SeaTunnel 的默认引擎,它支持高吞吐量、低延迟和强一致性的数据同步作业操作,更快、更稳定、更节省资源且易于使用。原创 2024-11-12 14:33:17 · 436 阅读 · 0 评论 -
lftp部署及使用之南
lftp 是一个非常强大的文件传输工具,适用于各种网络环境和大文件管理任务。它的 **断点续传**、**多线程传输** 和 **镜像同步** 特性,使得它在数据传输场景中非常高效。配合脚本使用,还可以实现复杂的自动化任务。原创 2024-10-25 18:09:56 · 53 阅读 · 0 评论 -
ftp 实操命令大全
ftp实用命令原创 2024-10-25 18:07:19 · 371 阅读 · 0 评论 -
ftp服务内容笔记实录
执行:get(下载)、 put(上传)、 mkdir(创建目录)、 delete(删除)、 rename(重命名)等。1.改文件系统权限,可以使用ACL权限,因chroot原因,测试时服务端不要修改 /var/ftp 的权限。#CentOS7.6中/etc/shells中默认不包含/sbin/nologin类型,需手动添加上。anon_root=/var/ftp 匿名用户 FTP 的根目录。#设置共享目录(xnzjh登录后的目录),/shares是最大目录,里面可以设置子目录。原创 2024-10-25 18:01:01 · 98 阅读 · 0 评论 -
apache paimon简介(官翻)
Apache Paimon 是一个专为大数据应用设计的多功能表存储系统。它支持批处理和流处理,通常与 Apache Flink、Apache Hive 和 Apache Spark 等工具一起使用。原创 2024-09-23 16:07:07 · 980 阅读 · 0 评论 -
collocate join,bucket join,broadcast join,shuffle join对比分析
在实际应用中,根据数据规模、Join 类型和系统的性能需求,选择合适的 Join 策略非常关键。一般情况下,优先使用 Broadcast Join 进行小表与大表的 Join,如果数据已被分桶则选择 Bucket Join,Collocate Join 适用于提前计划好分区策略的场景,Shuffle Join 则作为通用方案用于无法优化的情况。原创 2024-09-12 15:41:11 · 313 阅读 · 0 评论 -
Azkaban、oozie、airflow、dolphinschduler 对比分析
Azkaban、Oozie、Airflow 和 DolphinScheduler 是四种常见的数据工作流调度工具,广泛应用于大数据和数据工程领域。原创 2024-09-12 15:33:17 · 1168 阅读 · 0 评论 -
Flink CEP(复杂事件处理)高级进阶
在 Flink CEP 中,模式定义是通过Pattern类来完成的。模式定义时,用户可以设置模式的开始事件、状态转换条件、次数限制等。原创 2024-09-11 17:22:14 · 550 阅读 · 0 评论 -
大数据之spark算子简介
在 Apache Spark 中,Transformation 和 Action 是两类核心算子,用于定义数据处理逻辑;PairRDDFunctions 提供了对键值对 RDD 的特殊操作;而 File System 处理则涉及与外部存储的交互。下面详细介绍每一部分。原创 2024-09-11 17:19:38 · 371 阅读 · 0 评论 -
Apache Doris 的 Incremental Read增量读取,数据合并,数据清理
Incremental Read(增量读取)是 Apache Doris 用来提高查询效率的一个重要功能。它的核心思想是通过增量地读取和处理数据,减少不必要的数据扫描,从而加速查询的执行。这个功能特别适用于那些数据更新频繁但查询侧重于最新数据的场景。原创 2024-08-15 14:36:23 · 358 阅读 · 0 评论 -
apache huidi 时间旅行Time Travel)机制
Apache Hudi 的时间旅行功能主要依赖于提交日志、基础文件与增量日志的结合,以及通过合并与压缩来管理数据的多个版本。索引机制则进一步提高了查询的效率。通过这些机制,Hudi 能够实现高效的时间旅行查询,允许用户访问数据的历史版本。原创 2024-08-15 14:20:35 · 471 阅读 · 0 评论 -
mysql中的二进制数据类型
在MySQL中,二进制数据类型用于存储二进制数据,例如图片、音频、视频文件等。MySQL提供了几种不同的二进制数据类型,每种类型适用于不同的用途。原创 2024-07-12 14:26:00 · 164 阅读 · 0 评论 -
Hadoop升级失败,File system image contains an old layout version -64
datasophon 部署Hadoop版本。原始版本 Hadoop 3.1.3。升级版本 Hadoop 3.3.3。查看Hadoop格式化版本。原创 2024-06-19 15:17:45 · 257 阅读 · 0 评论 -
Milvus向量数据库
Milvus 是一个专注于向量数据存储和高效查询的开源数据库系统。它的设计目标是支持大规模向量数据的存储、索引和查询,特别适用于以向量为核心的应用场景,如相似度搜索、推荐系统等。原创 2024-06-14 10:38:54 · 309 阅读 · 0 评论 -
机器学习之Transformer模型和大型语言模型(LLMs)
Transformer模型和大型语言模型(LLMs)是现代自然语言处理(NLP)和人工智能(AI)领域的前沿技术。这些模型革新了机器理解和生成人类语言的方式,使得从聊天机器人和自动翻译到复杂的内容生成和情感分析的应用成为可能。原创 2024-06-14 10:10:18 · 448 阅读 · 1 评论 -
doris be报错:sysctl -w vm.max_map_count=2000000
doris be 报错原创 2024-05-06 16:50:14 · 312 阅读 · 0 评论 -
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。原创 2024-04-16 17:19:40 · 519 阅读 · 1 评论 -
kylin的使用心得
Kylin拥有一个活跃的开发者社区和用户社区,用户可以在社区中获取技术支持、提出问题、分享经验,并参与到Kylin项目的开发和改进中。:Kylin通过预计算多维度的聚合数据,并将其存储在多维度的立方体中,从而实现了快速的多维分析查询能力。:Kylin提供了简单易用的部署和管理工具,用户可以快速搭建和配置Kylin集群,并进行监控和调优。Kylin是一个功能强大、易于使用、性能优越的大数据OLAP引擎,它为用户提供了快速的多维分析查询能力,帮助用户更好地理解和探索数据,从而为业务决策提供支持。原创 2024-04-15 09:59:39 · 128 阅读 · 0 评论 -
OneFlow深度学习简介
OneFlow是一个基于深度学习的开源框架,主要面向机器学习工程师和研究人员。它提供了类似于其他深度学习框架(如TensorFlow和PyTorch)的API,同时具有高性能和高效的特点。OneFlow专注于在大规模数据集和分布式环境下的训练和推理,以及在生产环境中的部署和优化。其设计目标之一是提供易于使用的接口,同时保持对最新研究的支持,使用户能够快速实现并部署复杂的深度学习模型。OneFlow是由中国企业华为发起并维护的开源深度学习框架,旨在提供高性能、高效率的深度学习解决方案。特点和优势高性能。原创 2024-04-15 09:55:35 · 354 阅读 · 0 评论 -
Apache Storm的详细配置
配置原创 2024-04-12 09:28:42 · 425 阅读 · 0 评论 -
Lakehouse 大数据概念
在传统的大数据架构中,数据湖用于存储原始、未加工的数据,而数据仓库则用于存储经过加工和清洗的数据,供企业分析和报告使用。通过结合数据湖和数据仓库的优势,Lakehouse为企业带来了更高效、更灵活和更可靠的数据处理能力,有助于实现数据驱动的业务决策和创新。Lakehouse提供了一个统一的数据存储平台,可以容纳多种类型和格式的数据,包括结构化数据、半结构化数据和非结构化数据。对于已经建立了数据湖的企业,Lakehouse提供了一种升级路径,通过引入数据仓库的特性和功能,增强数据湖的管理和分析能力。原创 2024-04-07 11:06:00 · 289 阅读 · 0 评论 -
开源数据湖iceberg, hudi ,delta lake, paimon对比分析
Iceberg, Hudi, Delta Lake和Paimon都是用于大数据湖(Data Lake)或数据仓库(Data Warehouse)中数据管理和处理的工具或框架,但它们在设计、功能和适用场景上有所不同。原创 2024-04-07 10:51:49 · 1084 阅读 · 2 评论 -
Apache Paimon实时数据糊介绍
Apache Paimon 是一种湖格式,可以使用 Flink 和 Spark 构建实时 数据糊 架构,用于流式和批处理操作。Paimon 创新地将湖格式和 LSM(日志结构合并树)结构相结合,将实时流式更新引入湖架构中。生态系统:除了 Apache Flink 外,Paimon 还支持其他计算引擎(如 Apache Hive、Apache Spark 和 Trino)的读取。读/写:Paimon 支持多样化的数据读写和执行 OLAP 查询的方式。Paimon 提供表抽象。原创 2024-04-02 14:20:22 · 543 阅读 · 0 评论 -
Hive正则表达式使用
hive正则表达式介绍及使用原创 2024-03-19 17:35:12 · 529 阅读 · 0 评论 -
Python程序打包成exe可执行文件的常用方法
PyInstaller是一个流行的工具,它可以将Python脚本打包成独立的可执行文件,支持Windows、Linux和Mac。Py2exe是一个专门用于将Python脚本打包成Windows可执行文件(.exe)的工具。cx_Freeze是另一个常用的打包工具,它可以将Python脚本打包成可执行文件。在Python中,您可以使用一些工具将您的Python程序打包成可执行文件(.exe)。目录中生成一个包含可执行文件的文件夹。目录中生成一个包含可执行文件的文件夹。目录中生成一个包含可执行文件的文件夹。原创 2024-02-28 09:58:44 · 138 阅读 · 0 评论 -
开源元数据管理平台Amundsen安装
Amundsen是一个用于提高数据分析师、数据科学家和工程师在与数据交互时的生产力的数据发现和元数据引擎。目前,它通过索引数据资源(表、仪表板、流等)并基于使用模式(例如,高频查询的表会比低频查询的表更早显示)提供类似于PageRank的搜索来实现这一目标。可以将其视为数据的Google搜索。该项目以挪威探险家Roald Amundsen命名,他是第一个发现南极点的人。原创 2024-01-24 10:14:22 · 552 阅读 · 0 评论 -
apache seatunnel web 安装部署
seatunnel web安装部署原创 2024-01-17 14:57:16 · 646 阅读 · 0 评论 -
SeaTunnel 、DataX 、Sqoop、Flume、Flink CDC 对比
各数据同步产品同步原创 2024-01-17 10:54:04 · 629 阅读 · 2 评论 -
TDengine调研
调研原创 2023-08-04 09:14:37 · 140 阅读 · 0 评论 -
TiDB调研报告
调研原创 2023-08-03 16:10:39 · 646 阅读 · 0 评论 -
Greenplum集群部署
greenplum集群部署原创 2023-08-03 16:09:44 · 1481 阅读 · 0 评论 -
Greenplum查询调研
Greenplum查询调研记录原创 2023-08-03 16:02:51 · 136 阅读 · 0 评论 -
clickhouse调研报告2
调研报告原创 2023-08-03 15:50:13 · 569 阅读 · 0 评论 -
Clickhouse调研
clickhouse调研报告原创 2023-08-03 15:44:55 · 531 阅读 · 0 评论 -
clickhouse功能使用
功能使用原创 2023-08-03 15:39:42 · 536 阅读 · 0 评论 -
clickhouse安装
在线安装和离线安装原创 2023-08-03 15:38:33 · 1048 阅读 · 0 评论 -
Greenplum调研报告
独立组件个数Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAuxwtaD-1601276710346)(http://brgit.ibr.cc/bigdata/public/-/raw/patch-1/OLAP_Research/Greenplum/imange/highlevel_arch.jpg)]Master是Greenplum数据库系统的入口,接受连接和SQL原创 2020-09-28 15:07:07 · 398 阅读 · 0 评论 -
Greenplum内存问题处理
错误java.sql.SQLException: [Pivotal][Greenplum JDBC Driver][Greenplum]Out of memory (seg1 slice3 *.*.3.245:6001 pid=27558). 原因内存不足错误消息表明Greenplum的Segment、主机和进程遇到了内存不足错误。提示:Greenplum数据库集群中,内存管理对性能有显著的影响。默认设置适合于大部分环境。不要更改默认设置,除非理解系统上的内存特点和使用。原因解决方案原创 2020-09-27 12:16:19 · 1624 阅读 · 1 评论 -
Greenplum原理及其简介
Greenplum介绍组织架构Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。Greenplum数据库通过将数据和处理负载分布在多个服务器或者主机上来存储和处理大量的数据。Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。原创 2020-09-15 17:25:37 · 1150 阅读 · 0 评论