hadoop
文章平均质量分 88
Zda天天爱打卡
这个作者很懒,什么都没留下…
展开
-
【亲测有效】hadoop hive1,hive2 索引加速查询 hive sql优化 大幅优化查询速度 索引建立
【亲测有效】hadoop hive1,hive2 索引加速查询 hive sql优化 大幅优化查询速度 索引建立原创 2022-06-23 11:06:51 · 568 阅读 · 0 评论 -
【亲测有效】hive sql DML语句优化思路 hive表查询优化 优化你的hive任务,all you need,持续更新中
【亲测有效】hive sql DML语句优化思路 hive表查询优化 优化你的hive任务,all you need,持续更新中原创 2022-06-20 13:11:48 · 244 阅读 · 1 评论 -
【亲测有效】hive最全常用配置参数,加速,优化你的hive任务,all you need,持续更新中
【亲测有效】hive最全常用配置参数,加速,优化你的hive任务,all you need原创 2022-06-20 11:52:07 · 2639 阅读 · 0 评论 -
Alluxio-基于内存的虚拟分布式存储系统
什么是AlluxioAlluxio 是世界上第一个虚拟的分布式存储系统,它为计算框架和存储系统构建了桥梁,使计算框架能够通过一个公共接口连接到多个独立的存储系统,使计算与存储隔离。 Alluxio 是内存为中心的架构,以内存速度统一了数据访问速度,使得数据的访问速度能比现有方案快几个数量级,为大数据软件栈带来了显著的性能提升在大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Presto、Tensorflow、Apache HBase、Apache H..原创 2022-02-27 21:17:16 · 3440 阅读 · 1 评论 -
Flink 消费 Kafka 数据实时落Apache doris数据仓库(KFD)
1.概述Apache Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据仓库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探原创 2022-02-27 20:53:40 · 2581 阅读 · 0 评论 -
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris
Apache Doris 代码仓库地址:apache/incubator-doris 欢迎大家关注加星本文通过实例来演示怎么通过Flink CDC 结合Doris的Flink Connector实现从Mysql数据库中监听数据并实时入库到Doris数仓对应的表中。1.什么是CDCCDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GRO原创 2022-02-27 20:53:09 · 2486 阅读 · 0 评论 -
【CDH实战02】基于CentOS7的CDH6.3.2完全分布式集群搭建【下】
写在前面上一篇,我们从零开始搭建好了ClouderaManager的安装环境。接下来,我们开始安装大数据生态组件,并对CDH的一些告警进行调试。一、创建集群并安装HDFS服务安装步骤: 选择功能授权版本 ->> 创建集群 ->> 为集群添加服务1. 版本选择1.1 使用默认用户名密码登录CM用户名:admin密码:admin1.2 登录成功来到环境界面-继续1.3 接受许可条款-继续1.4 根据需要选择版本-继续我们这里原创 2022-02-27 20:46:29 · 1268 阅读 · 0 评论 -
【CDH实战01】基于CentOS7的CDH6.3.2完全分布式集群搭建【上】
写在前面距离上一次写cdh集群搭建的文档已经一年多,今年2月份开始Cloudera全面下架了免费的安装包下载渠道,很多朋友在集群搭建的过程中按照之前的老文档遇到了一些问题。今天重新整理一次文档。 Cloudera官网公告 未订阅授权的用户无法使用CDH6.3.3和之后的版本 所以我们继续使用CDH6.3.2版本进行集群搭建 需要使用的朋友可以先浏览CDH6.3.2对应的组件版本是否符合需求 组件 版本 发行版 CDH 版本 Flu原创 2022-02-27 20:21:33 · 805 阅读 · 0 评论 -
【技术调研】安装CM 6.3.1和CDH 6.3.2
操作系统要求在安装CDH之前,我们来看看平台对系统有什么样的要求。通过官方文档,我们可以看到有5个方面的要求:软件依赖 CDH和CM支持的依赖 文件系统要求 nproc配置 Kudu所要求的nscd软件依赖Python操作系统带的Python是支持的(Hue和Spark会有一点问题),但Python 3.0或者更高版本是不兼容的。CDH 6要求OS需要Python 2.7或者更高的版本,而Spark 2需要Python 2.7或者更高版本的支持,但Spark 3只支持Python转载 2022-02-27 20:20:31 · 1207 阅读 · 1 评论 -
【技术调研】通过Apache Hudi和Alluxio建设高性能数据湖
T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段(包括提取和分析)构建了数据湖。1.T3出行数据湖总览T3出行当前还处于业务扩张期,在构建数据湖之前不同的业务线,会选择不同的存储系统、传输工具以及处理框架,从而出现了严重的数据孤岛原创 2022-02-27 20:16:04 · 262 阅读 · 0 评论 -
【技术调研】Apache CarbonData、Hudi及Open Delta的对比研究
背景我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力。在数据湖中,用户基于一组数据生成报告是非常常见的。随着各种类型的数据汇入数据湖,数据的状态不会一层不变。需要改变各种数据的用例包括随时间变化的时序数据、延迟到达的时延数据、平衡实时可用性和回填、状态变化的数据(如CDC)、数据快照、数据清理等,在生成报告时,这些都将被写入/更新在同一组表。由于Hadoop分布式文件系统(HDFS)和对象存储类似于文件系统,因此它们不是为提供事务...原创 2022-02-27 20:13:17 · 182 阅读 · 0 评论 -
Flink on Yarn 原理剖析及实践
Flink 架构概览Flink 架构概览–Job用户通过 DataStream API、DataSet API、SQL 和 Table API 编写 Flink 任务,它会生成一个JobGraph。JobGraph 是由 source、map()、keyBy()/window()/apply() 和 Sink 等算子组成的。当 JobGraph 提交给 Flink 集群后,能够以 Local、Standalone、Yarn 和 Kubernetes 四种模式运行。Fl原创 2022-02-22 21:40:32 · 266 阅读 · 0 评论 -
对比MySQL,一文看透HBase的能力及使用场景
简介:MySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。 本文内容适合初次理解HBase的读者,包括技术、功能及场景,也欢迎老司机们补充和温故。 更多内容,请查看PPTMySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。本文内容适合初次理解HBase的读者,包括技术、功能及场景,也欢迎老司机们补充和温故。...原创 2021-03-04 15:28:33 · 160 阅读 · 1 评论 -
【配置CDH和管理服务】关闭DataNode前HDFS的调优
配置CDH和管理服务关闭DataNode前HDFS的调优角色要求:配置员、集群管理员、完全管理员 当一个DataNode关闭,NameNode确保每一个DataNode中的每一个块根据复制系数(the replication factor)跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下,一个DataNode有成千上万个块,关闭后集群转载 2015-06-13 13:55:48 · 2900 阅读 · 0 评论