JAVA
文章平均质量分 95
ConradJam
陈政羽,Apache Flink 中文社区志愿者,专注于分享Flink文章和Java大数据相关知识。欢迎关注我多多支持
展开
-
Flink 1.14 前言预览
本文由我进行整理,整理后发布至开源社区。内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预览》。主要内容为:简介 流批一体 Checkpoint 机制 性能与效率 Table / SQL / Python API 总结GitHub 地址https://github.com/apache/flink社区文章仓库整理地址https://github.com/czy006/FlinkClub欢迎大家给.原创 2021-09-03 17:52:49 · 288 阅读 · 0 评论 -
CarbonData集成 Presto(Trino)(1)- 介绍 & 环境篇
个人介绍有幸在开源之夏选上课题基于CarbonData 之 Presto 优化课题,这个课题主要是针对Presto使用CarbonData查询上做更多的一些优化。这个课题对于我来说十分有挑战点,涉及大数据领域的组件十分多,首先CarbonData作为大数据的一种文件存储格式,在OLAP计算引擎上的查询加速实现有助于数据更快的查询和产出;其次大数据涉及的组件和版本比较广泛,在测试、兼容各种方面带来的挑战会很多,例如Hadoop、Spark、Presto(Trino)、Hive等多个开源大数据组件的协同运行和原创 2021-07-28 22:20:57 · 710 阅读 · 0 评论 -
Flink CDC 2.0 设计方案
文章介绍:如何将数据库中的数据接入数据仓库/数据湖是数仓建设需要考虑的关键一环。今天就由来自阿里的徐榜江(雪尽)老师带来的分享Flink-CDC 2.0 设计方案。徐榜江(雪尽)老师就职于阿里巴巴,目前主要担任FlinkSQL的研发工作。今天带来的Flink-CDC 2.0 设计方案,首先先会对CDC进行简单的概述和解决场景描述,相对比于传统数据同步方案,Flink-CDC 数据同步方案的优缺点进行简单概括,同时分析 Flink-CDC 架构的优势详细解读无锁设计和全量阶段并发设计以及CDC后续的一些规划本原创 2021-07-25 10:35:53 · 3805 阅读 · 2 评论 -
MongoDB与Spark整合的环境搭建
Spark介绍 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark...原创 2018-09-12 11:00:43 · 9208 阅读 · 0 评论