![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 95
Ricky_Huo
曾经是个全栈,立志于不做全栈
展开
-
如何用Spark实现一个通用大数据引擎
Github 上的开源项目 Waterdrop,此项目Star + Fork的有将近1200人,是一个基于Spark和Flink构建的生产环境的海量数据计算产品。Waterdrop的特性包括简单易用,灵活配置,无需开发;同时支持流式和离线处理;模块化和插件化,易于扩展;支持利用SQL做数据处理和聚合;支持选择Spark或Flink作为底层引擎层。作为 Spark 或者 Flink 的开发者,你是否也曾经想过要打造这样一款通用的计算引擎,是是否曾经有这样的疑问,Waterdrop为什么能实现这原创 2020-06-03 22:44:47 · 909 阅读 · 0 评论 -
从Flink上谈当今实时流处理
0. 序 在当前数据量激增传统的时代,不同的业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效地处理,成为当下大多数公司所面临的问题。但随着数据的不断增长,新技术的不断发展,人们逐渐意识到对实时数据处理的重要性,企业需要能够同时支持高吞吐、低延迟、高性能的流处理技术来处理日益增长的数据。相对于传统的数据处理模式,流式数据处理则有着更高的处理效率和成本控制。Apach...原创 2020-04-27 15:53:13 · 1014 阅读 · 0 评论 -
Waterdrop推动Spark Structured Streaming走向生产环境
前言StructuredStreaming是Spark 2.0以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点:它能做到更低的延迟;可以做实时的聚合,例如实时计算每天每个商品的销售总额;可以做流与流之间的关联,例如计算广告的点击率,需要将广告的曝光记录和点击记录关联。以上几点如果使用SparkStreaming来实现可能会比较麻烦或者说是很难实现,但是使...原创 2019-04-16 08:59:25 · 1117 阅读 · 6 评论 -
优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析
优秀的数据工程师,怎么用Spark在TiDB上做OLAP分析TiDB 是一款定位于在线事务处理/在线分析处理的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势。直接使用 TiSpark 完成 O...原创 2019-02-18 22:25:25 · 1628 阅读 · 0 评论 -
如何使用Spark快速将数据写入Elasticsearch
如何使用Spark快速将数据写入Elasticsearch说到数据写入Elasticsearch,最先想到的肯定是Logstash。Logstash因为其简单上手、可扩展、可伸缩等优点被广大用户接受。但是尺有所短,寸有所长,Logstash肯定也有它无法适用的应用场景,比如:海量数据ETL海量数据聚合多源数据处理为了满足这些场景,很多同学都会选择Spark,借助Spark算子进行数据...原创 2018-12-11 23:57:23 · 9385 阅读 · 0 评论 -
如何快速地把HDFS中的数据导入ClickHouse
如何快速地把HDFS中的数据导入ClickHouseClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。之前介绍的有关数据处理入库的经验都是基于实时数据流,数据存储在Kafka中,我们使用Java或者Golang将数据从Kafka中读取、解析、清洗之后写入ClickH...原创 2018-11-07 17:12:07 · 19364 阅读 · 3 评论 -
Waterdrop帮你快速玩转Spark数据处理
Waterdrop帮你快速玩转Spark数据处理 屠龙宝刀,宝刀屠龙,踏遍天下,谁敢不从,倚天不出,谁与争锋!Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。一个Spark Str...转载 2018-02-28 09:37:06 · 21999 阅读 · 0 评论 -
Spark on Mesos集群部署
Spark on Mesos集群部署1.安装Mesos安装最新版的Mesosrpm -Uvh http://repos.mesosphere.io/el/7/noarch/RPMS/mesosphere-el-repo-7-1.noarch.rpmyum install mesos安装指定版本Mesos找到指定Mesos版本的RPM包地址下载安装Mesoswget http://repo原创 2017-05-09 16:51:21 · 1913 阅读 · 0 评论 -
Spark on Yarn开发运维过程中遇到的问题汇总
Spark on Yarn开发运维过程中遇到的问题汇总启动nodemanager报错 No space left on device 使用df -h命令判断nodemanager运行日志和启动日志磁盘空间是否足够。使用pyspark读取kafka对应topic数据报错java.lang.NoClassDefFoundError: org/apache/kafka/common/message原创 2017-02-10 15:38:04 · 1823 阅读 · 0 评论 -
Spark Streaming从1.4.1升级至2.0.0-preview遇到的问题汇总
Spark Streaming从1.4.1升级至2.0.0-preview遇到的问题汇总Spark Streaming原创 2016-09-28 10:06:41 · 2297 阅读 · 0 评论 -
Spark 2.0.0-preview流式处理环境部署
Spark 2.0.0-preview流式处理环境部署环境准备Hadoop Yarn Hadoop 2.5.0-cdh5.3.2Intellij Idea Intellij IDEA 2016.3其他 java version “1.8.0_45” scala 2.11.8Spark 2.0.0-preview安装配置从官网拉取预编译版本spark-2.0.0-previe原创 2016-07-22 09:30:16 · 902 阅读 · 0 评论 -
如何构建第一个Spark项目代码
如何构建第一个Spark项目代码原创 2016-04-28 16:52:09 · 7462 阅读 · 0 评论 -
Spark on Yarn客户端作业提交过程分析
Spark on Yarn 客户端模式作业提交过程分析我们将以一个Spark Streaming为例,阅读spark相关源码,简述Spark on Yarn客户端模式下作业提交流程。作业是通过spark-submit脚本提交的,因此整个流程从spark-submit代码开始分析。通过submit获取提交代码的MainClass通过反射机制Utils.classForName创建相关的类,并获取其原创 2016-04-20 11:13:21 · 1960 阅读 · 0 评论