![](https://img-blog.csdnimg.cn/92da487a2e6f4293bb0a1e5dabef3461.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据生态
文章平均质量分 77
Greenplum的安装与使用
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
贾斯汀玛尔斯
点赞、收藏加关注,追fun不迷路
展开
-
Hadoop升级失败,File system image contains an old layout version -64
datasophon 部署Hadoop版本。原始版本 Hadoop 3.1.3。升级版本 Hadoop 3.3.3。查看Hadoop格式化版本。原创 2024-06-19 15:17:45 · 212 阅读 · 0 评论 -
Milvus向量数据库
Milvus 是一个专注于向量数据存储和高效查询的开源数据库系统。它的设计目标是支持大规模向量数据的存储、索引和查询,特别适用于以向量为核心的应用场景,如相似度搜索、推荐系统等。原创 2024-06-14 10:38:54 · 228 阅读 · 0 评论 -
机器学习之Transformer模型和大型语言模型(LLMs)
Transformer模型和大型语言模型(LLMs)是现代自然语言处理(NLP)和人工智能(AI)领域的前沿技术。这些模型革新了机器理解和生成人类语言的方式,使得从聊天机器人和自动翻译到复杂的内容生成和情感分析的应用成为可能。原创 2024-06-14 10:10:18 · 286 阅读 · 1 评论 -
doris be报错:sysctl -w vm.max_map_count=2000000
doris be 报错原创 2024-05-06 16:50:14 · 174 阅读 · 0 评论 -
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。原创 2024-04-16 17:19:40 · 476 阅读 · 1 评论 -
kylin的使用心得
Kylin拥有一个活跃的开发者社区和用户社区,用户可以在社区中获取技术支持、提出问题、分享经验,并参与到Kylin项目的开发和改进中。:Kylin通过预计算多维度的聚合数据,并将其存储在多维度的立方体中,从而实现了快速的多维分析查询能力。:Kylin提供了简单易用的部署和管理工具,用户可以快速搭建和配置Kylin集群,并进行监控和调优。Kylin是一个功能强大、易于使用、性能优越的大数据OLAP引擎,它为用户提供了快速的多维分析查询能力,帮助用户更好地理解和探索数据,从而为业务决策提供支持。原创 2024-04-15 09:59:39 · 109 阅读 · 0 评论 -
OneFlow深度学习简介
OneFlow是一个基于深度学习的开源框架,主要面向机器学习工程师和研究人员。它提供了类似于其他深度学习框架(如TensorFlow和PyTorch)的API,同时具有高性能和高效的特点。OneFlow专注于在大规模数据集和分布式环境下的训练和推理,以及在生产环境中的部署和优化。其设计目标之一是提供易于使用的接口,同时保持对最新研究的支持,使用户能够快速实现并部署复杂的深度学习模型。OneFlow是由中国企业华为发起并维护的开源深度学习框架,旨在提供高性能、高效率的深度学习解决方案。特点和优势高性能。原创 2024-04-15 09:55:35 · 333 阅读 · 0 评论 -
Apache Storm的详细配置
配置原创 2024-04-12 09:28:42 · 389 阅读 · 0 评论 -
Lakehouse 大数据概念
在传统的大数据架构中,数据湖用于存储原始、未加工的数据,而数据仓库则用于存储经过加工和清洗的数据,供企业分析和报告使用。通过结合数据湖和数据仓库的优势,Lakehouse为企业带来了更高效、更灵活和更可靠的数据处理能力,有助于实现数据驱动的业务决策和创新。Lakehouse提供了一个统一的数据存储平台,可以容纳多种类型和格式的数据,包括结构化数据、半结构化数据和非结构化数据。对于已经建立了数据湖的企业,Lakehouse提供了一种升级路径,通过引入数据仓库的特性和功能,增强数据湖的管理和分析能力。原创 2024-04-07 11:06:00 · 263 阅读 · 0 评论 -
开源数据湖iceberg, hudi ,delta lake, paimon对比分析
Iceberg, Hudi, Delta Lake和Paimon都是用于大数据湖(Data Lake)或数据仓库(Data Warehouse)中数据管理和处理的工具或框架,但它们在设计、功能和适用场景上有所不同。原创 2024-04-07 10:51:49 · 823 阅读 · 2 评论 -
Apache Paimon实时数据糊介绍
Apache Paimon 是一种湖格式,可以使用 Flink 和 Spark 构建实时 数据糊 架构,用于流式和批处理操作。Paimon 创新地将湖格式和 LSM(日志结构合并树)结构相结合,将实时流式更新引入湖架构中。生态系统:除了 Apache Flink 外,Paimon 还支持其他计算引擎(如 Apache Hive、Apache Spark 和 Trino)的读取。读/写:Paimon 支持多样化的数据读写和执行 OLAP 查询的方式。Paimon 提供表抽象。原创 2024-04-02 14:20:22 · 488 阅读 · 0 评论 -
Hive正则表达式使用
hive正则表达式介绍及使用原创 2024-03-19 17:35:12 · 416 阅读 · 0 评论 -
Python程序打包成exe可执行文件的常用方法
PyInstaller是一个流行的工具,它可以将Python脚本打包成独立的可执行文件,支持Windows、Linux和Mac。Py2exe是一个专门用于将Python脚本打包成Windows可执行文件(.exe)的工具。cx_Freeze是另一个常用的打包工具,它可以将Python脚本打包成可执行文件。在Python中,您可以使用一些工具将您的Python程序打包成可执行文件(.exe)。目录中生成一个包含可执行文件的文件夹。目录中生成一个包含可执行文件的文件夹。目录中生成一个包含可执行文件的文件夹。原创 2024-02-28 09:58:44 · 110 阅读 · 0 评论 -
开源元数据管理平台Amundsen安装
Amundsen是一个用于提高数据分析师、数据科学家和工程师在与数据交互时的生产力的数据发现和元数据引擎。目前,它通过索引数据资源(表、仪表板、流等)并基于使用模式(例如,高频查询的表会比低频查询的表更早显示)提供类似于PageRank的搜索来实现这一目标。可以将其视为数据的Google搜索。该项目以挪威探险家Roald Amundsen命名,他是第一个发现南极点的人。原创 2024-01-24 10:14:22 · 464 阅读 · 0 评论 -
apache seatunnel web 安装部署
seatunnel web安装部署原创 2024-01-17 14:57:16 · 611 阅读 · 0 评论 -
SeaTunnel 、DataX 、Sqoop、Flume、Flink CDC 对比
各数据同步产品同步原创 2024-01-17 10:54:04 · 567 阅读 · 2 评论 -
TDengine调研
调研原创 2023-08-04 09:14:37 · 118 阅读 · 0 评论 -
TiDB调研报告
调研原创 2023-08-03 16:10:39 · 568 阅读 · 0 评论 -
Greenplum集群部署
greenplum集群部署原创 2023-08-03 16:09:44 · 1445 阅读 · 0 评论 -
Greenplum查询调研
Greenplum查询调研记录原创 2023-08-03 16:02:51 · 123 阅读 · 0 评论 -
clickhouse调研报告2
调研报告原创 2023-08-03 15:50:13 · 549 阅读 · 0 评论 -
Clickhouse调研
clickhouse调研报告原创 2023-08-03 15:44:55 · 513 阅读 · 0 评论 -
clickhouse功能使用
功能使用原创 2023-08-03 15:39:42 · 522 阅读 · 0 评论 -
clickhouse安装
在线安装和离线安装原创 2023-08-03 15:38:33 · 945 阅读 · 0 评论 -
Greenplum调研报告
独立组件个数Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAuxwtaD-1601276710346)(http://brgit.ibr.cc/bigdata/public/-/raw/patch-1/OLAP_Research/Greenplum/imange/highlevel_arch.jpg)]Master是Greenplum数据库系统的入口,接受连接和SQL原创 2020-09-28 15:07:07 · 383 阅读 · 0 评论 -
Greenplum内存问题处理
错误java.sql.SQLException: [Pivotal][Greenplum JDBC Driver][Greenplum]Out of memory (seg1 slice3 *.*.3.245:6001 pid=27558). 原因内存不足错误消息表明Greenplum的Segment、主机和进程遇到了内存不足错误。提示:Greenplum数据库集群中,内存管理对性能有显著的影响。默认设置适合于大部分环境。不要更改默认设置,除非理解系统上的内存特点和使用。原因解决方案原创 2020-09-27 12:16:19 · 1441 阅读 · 1 评论 -
Greenplum原理及其简介
Greenplum介绍组织架构Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。Greenplum数据库通过将数据和处理负载分布在多个服务器或者主机上来存储和处理大量的数据。Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。原创 2020-09-15 17:25:37 · 1124 阅读 · 0 评论 -
Greenplum及其web安装
一,安装说明1.1环境说明*名称**版本*操作系统CentOS 7.6 64bitgreenplumgreenplum-db-6.10.1-rhel7-x86_64.rpm1.2集群介绍IPhostname集群节点192.168.3.244gpmastermaster192.168.3.245gpsegment1segment192.168.3.246gpsegment2segment二,安装环境准备2.1 修改原创 2020-09-15 17:13:34 · 388 阅读 · 0 评论 -
greenplum web界面不显示监控数据
如下所示在master的postgresql.conf文件(如/opt/greenplum/data/master/gpseg-1)中添加如下信息gpcc.enable_send_query_info=ongpcc.query_metrics_port=9898关闭greenplum。命令为gpstop -r然后重启 gpstart -a关闭web服务 gpcc stop开启服务 gpcc start重新打开网址...原创 2020-09-10 12:38:32 · 377 阅读 · 0 评论 -
Greenplum安装时修改gpssh-exkeys中SSH免密登录端口
SSH免密登录的默认端口号为22,如果需要使用2226端口,可以修改如下地方298 def testAccess(hostname):299 '''300 Ensure the proper password-less access to the remote host.301 Using ssh here also allows discovery of remote host keys *not*302 reported by ssh-keyscan.303...原创 2020-09-08 14:13:29 · 3181 阅读 · 2 评论 -
Greenplum安装时使用不了gpssh-exkeys
Greenplum安装过程中,使用gpssh-exkeys错误解决方案:1. 切换至gpadmin用户(自创建)2. 执行如下命令source /usr/local/greenplum-db/greenplum_path.sh执行结果如下所示原创 2020-09-08 14:06:52 · 3277 阅读 · 0 评论 -
Greenplum的数据分布与倾斜
Greenplum的分布与倾斜Greenplum数据库依赖于跨节点的均匀数据分布。在MPP无共享环境中,查询的总体响应时间由所有节点的完成时间来度量。 系统只能与最慢的节点一样快。 如果数据偏斜,具有更多数据的节点将花费更多时间来完成,因此每个节点必须具有大致相等的行数并执行大致相同的处理量。 如果一个节点具有比其他节点更多的处理数据,则可能导致性能不佳和内存不足。大表做连接操作时,最佳分布至关重要。 要执行连接,匹配的行必须位于同一节点上。 如果数据未在同一连接列上分发,则其中一个表所需的行将动态重转载 2020-09-02 14:50:14 · 2153 阅读 · 0 评论 -
关于Greenplum的架构
Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。 Greenplum使用这种高性能系统架构来分布数T字节数据仓库的负载并且能够使用系统的所有资源并行处理一个查询。Greenplum数据库是基于PostgreSQL开源技术的。它本质上是多个PostgreSQL面向磁盘的数据库转载 2020-09-02 14:17:21 · 424 阅读 · 0 评论