![](https://img-blog.csdnimg.cn/8d565ce661cf47ff8529dddc6dc6b375.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据与云计算
文章平均质量分 74
一些其他大数据产品的分享
阿福Chris
Greenplum中文社区资深技术专家!多年深耕分布式数据库领域!拥有Greenplum、TiDB、GBase8a、OceanBase等分布式数据库官方认证证书!
展开
-
Docker 在内网服务器通过配置代理访问外网拉取镜像
作者原文介绍了《详解 Docker 的三种网络代理配置》,按理说,在服务器上。,所有的服务就都能访问外网了。原创 2023-01-12 09:05:56 · 2108 阅读 · 0 评论 -
Grafana dashboard 报错 “Invalid dashboard UID in the request“
在 Grafana 配置文件中通过设置 `default_home_dashboard_path` 为一个绝对路径的 json dashboard 文件,来设置 Grafana 默认打开的 Dashboard。每次打开时都显示 "Invalid dashboard UID in the request"。原创 2023-02-26 22:41:20 · 684 阅读 · 0 评论 -
DolphinScheduler 开发环境搭建过程中遇到的坑
记录 Dolphin Scheduler 调度工具开发环境搭建过程中的问题。原创 2022-06-13 17:00:15 · 1401 阅读 · 2 评论 -
简单的 parquet 读取工具 parquet-tools 安装与使用
本文介绍的 parquet-tools 工具需要使用 python 和 pip,安装和使用起来也比较简单。原创 2023-03-01 14:53:29 · 2346 阅读 · 0 评论 -
Apache ORC深度探索(下篇)
上篇文章我们探索了Apache ORC的发展史、当前Hadoop适配情况以及支持的数据类型。今天我们来看一下如何使用Apache ORC。三、在Hive中使用Hive可以说是ORC格式及程度最好的软件了。下面让我们看看如何在Hive里面使用ORC和一些相关的配置。Hive中的语法在Hive里面,如果您是新建表,那么只需要在表后增加“STORED AS ORC”语句即可。例如下面的表:istari。CREATE TABLE istari ( name STRING, colo原创 2022-03-08 18:34:16 · 1879 阅读 · 0 评论 -
Apache ORC深度探索(上篇)
相信对Hadoop生态系统熟络的大数据开发者对ORC都不会陌生,笔者也是,那么ORC具体是什么?有哪些应用呢?我们今天来看一看这个在Hadoop生态系统中具有举足轻重地位的存储格式 -Apache ORC一、Apache ORC简介Apache ORC(optimizedRC File) 存储源自于RC这种存储格式,是一种列式存储引擎,对schema的变更(修改schema需要重新生成数据)支持较差,主要是在压缩编码、查询性能方面做了优化。ORC最早创建于2013年1月份,起初是为了提升A.原创 2022-03-01 21:12:27 · 2475 阅读 · 0 评论 -
Apache Iceberg 数据湖简介
昨天介绍了Apache Hudi,今天我们来看一下Apache Iceberg,不得不说,在数据湖这一块,竞争也是很激烈啊。下面放一张数据糊在数据栈中的位置图,可以明显的看到Hudi和Iceberg处于贴身肉搏的位置:Apache Iceberg是由 Netflix 开发并开源的、用于庞大分析数据集的开放表格式。 Iceberg在Presto和Spark中添加了使用高性能格式的表(Hudi也支持Presto和Spark集成),该格式的工作方式类似于SQL表。官方的定义,iceberg是一种表格式原创 2022-01-15 23:51:51 · 7531 阅读 · 0 评论 -
Hudi数据湖简介
今天跟大家分享的大数据产品叫Apache Hudi,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。下面首先放一张Hudi在Hadoop体系架构中的位置图:1. 什么是数据湖?首先介绍一下什么是数据湖,提到数据湖,不得不说一下数据仓库。关系型数据库大行其道的年代,随着各个业务系统增多,在应对一些分析场景时,慢慢产生了数据仓库的概念,包括之前介绍的Greenplum、Teradata等产品,都是数据仓库的代原创 2022-01-14 23:29:18 · 4664 阅读 · 0 评论 -
Presto在滴滴的探索与实践
本文节选自2020年10月滴滴技术发表的文章,侵删。最近的这几篇文章学习下来,大体有这么一个感受:首先,大家使用Presto首先都是为了解决Hive查询慢的问题,因为历史原因,很多数据积累在Hive里;其次Presto的积极开发和一些优秀的特性,吸引了越来越多的人入坑;当然,也有一些问题存在,所以要用好,还是需要hack能力的。桔妹导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理3.转载 2022-01-13 14:59:55 · 238 阅读 · 0 评论 -
Presto实现原理和美团的使用实践
最近在看Presto,虽然这个家伙开源挺久的了,但是好像国内写的好的分享文章并不多,网上偶然发现这篇文章写的特别详细,转发一下方便后期回顾学习。该文章转发自美团技术团队 作者: 木叶丸 本文已发表在《程序员》2014.6月刊 侵删Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专.转载 2022-01-11 23:20:47 · 393 阅读 · 0 评论 -
大数据产品研究 - Presto组成与概念
✨前言我在上篇文章中,对Presto是什么、能做什么做了简单的介绍,本篇文章,带大家一起来了解一下Presto的各个组件及其作用。这些组件贯穿于Presto整个使用文档中,所以要很好的理解和使用Presto,首先把他们分别是什么、用来做什么弄清楚,很重要。接下来会对这些组件进行一一介绍,包括什么是协调者,什么是工作者,什么是连接器等,当然为了遵从大家的理解习惯,有一些英文仍然会保留。✨服务角色类型(Server Types)Presto服务角色分为两种类型:协调者(coordinator原创 2022-01-10 22:11:20 · 1326 阅读 · 0 评论 -
大数据产品研究 - Presto简介
Presto是什么?Presto是一个开源的分布式SQL查询引擎,它以集群的方式运行,采用MPP架构,用在交互式分析查询场景下,可以将多种不同数据量级(从GB到PB)的数据源组合起来进行统一计算。Presto本身只是一个查询引擎,它通过connector的方式完成外部数据源的接入;也就是说通过使用Presto提供的ANSI标准SQL,可以完成多种数据源的标准化计算工作。以下是Presto在数据栈中所处位置的图形化展示。Presto是专为交互式分析而设计和编写的,其速度接近商业数据仓库的速度,可以原创 2022-01-08 17:55:22 · 3098 阅读 · 0 评论 -
大数据产品研究 - Apache Doris简介
Apache Doris是百度技术团队贡献给Apache的开源产品,曾经的名字为PALO,贡献给Apache后更名为Apache Doris。说起Doris,这里面还有一个有意思的故事,Apache Doris和DorisDB,不是一个产品,但是他们颇有一些渊源,大家可以从网上搜搜。Apache Doris的产品定位如下:Apache Doris是一个现代化的MPP分析型数据库产品。 仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。 Apache Doris的分布式架构非常简洁,易于原创 2022-01-07 22:52:29 · 2690 阅读 · 0 评论 -
Alluxio - 为机器学习和统计分析而生的数据编排工具
今天给大家分享一款数据编排工具,名字叫做Alluxio,不知道大家有没有听过?说句实话,我还是第一次听说有这款软件存在,虽然这款软件,早在2014年,就有人在开源中国中提交了。Alluxio基于Apache License 2.0开源,当前代码放在Github上。从Github上的star和fork数量来看,也算是一款比较热门的软件了。不知道大家的公司有没有尝试过这款产品?(欢迎用过的小伙伴在评论区留言讨论)最初的Alluxio项目,起源于UC Berkeley AMPLab,他被作为B原创 2021-12-23 20:48:23 · 1210 阅读 · 0 评论 -
DataHub - 为现代数据技术栈而生的元数据管理平台
DataHub;元数据管理原创 2021-12-21 18:24:11 · 3576 阅读 · 6 评论 -
Kafka消费者如何重置Offset
在Kafka Version为...原创 2020-08-30 22:33:00 · 2429 阅读 · 0 评论 -
Kafka如何删除topic
概述 在平时对kafka...原创 2020-08-30 22:35:00 · 2146 阅读 · 0 评论 -
Zookeeper是什么
官方文档上这么解释zookee...原创 2020-09-19 23:01:00 · 377 阅读 · 0 评论 -
Lambda架构简介
Lambda架构是由Storm...原创 2020-09-21 09:53:00 · 964 阅读 · 0 评论