Waterdrop
文章平均质量分 95
Ricky_Huo
曾经是个全栈,立志于不做全栈
展开
-
如何用Spark实现一个通用大数据引擎
Github 上的开源项目 Waterdrop,此项目Star + Fork的有将近1200人,是一个基于Spark和Flink构建的生产环境的海量数据计算产品。Waterdrop的特性包括简单易用,灵活配置,无需开发;同时支持流式和离线处理;模块化和插件化,易于扩展;支持利用SQL做数据处理和聚合;支持选择Spark或Flink作为底层引擎层。作为 Spark 或者 Flink 的开发者,你是否也曾经想过要打造这样一款通用的计算引擎,是是否曾经有这样的疑问,Waterdrop为什么能实现这原创 2020-06-03 22:44:47 · 914 阅读 · 0 评论 -
如何快速地将Hive中的数据导入ClickHouse
如何快速地将Hive中的数据导入ClickHouseClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。在之前的文章如何快速地把HDFS中的数据导入ClickHouse中我们提到过使用Waterdrop——https://github.com/InterestingL...原创 2018-11-28 23:17:21 · 14014 阅读 · 3 评论 -
如何使用Spark快速将数据写入Elasticsearch
如何使用Spark快速将数据写入Elasticsearch说到数据写入Elasticsearch,最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短,寸有所长,Logstash肯定也有它无法适用的应用场景,比如:海量数据ETL海量数据聚合多源数据处理为了满足这些场景,很多同学都会选择Spark,借助Spark算子进行数据...原创 2018-12-11 23:57:23 · 9395 阅读 · 0 评论 -
怎么在MacOS上使用sbt发布代码到Maven中央仓库
怎么在MacOS上使用sbt发布代码到Maven中央仓库在项目中集成sonatype这一部分不是本篇文章的重点,在项目集成sonatype可参照https://github.com/xerial/sbt-sonatype配置上传代码1. 安装gpg并生成密钥brew install gpggpg --gen-key# 输入用户名,邮箱和密码gpg --list-keypub ...原创 2019-01-29 15:09:49 · 643 阅读 · 0 评论 -
优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析
优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势。直接使用 TiSpark 完成 O...原创 2019-02-18 22:25:25 · 1637 阅读 · 0 评论 -
Waterdrop推动Spark Structured Streaming走向生产环境
前言StructuredStreaming是Spark 2.0以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点:它能做到更低的延迟;可以做实时的聚合,例如实时计算每天每个商品的销售总额;可以做流与流之间的关联,例如计算广告的点击率,需要将广告的曝光记录和点击记录关联。以上几点如果使用SparkStreaming来实现可能会比较麻烦或者说是很难实现,但是使...原创 2019-04-16 08:59:25 · 1128 阅读 · 6 评论