Spark
大数据运维
大数据运维研发SRE
展开
-
Spark RDD/DataFrame map保存数据的两种方式
使用Spark RDD或DataFrame,有时需要在foreachPartition或foreachWith里面保存数据到本地或HDFS。直接保存数据当然如果不需要在map里面保存数据,那么针对RDD可以有如下方式val rdd = // target rddrdd.saveAsHadoopFile // add some parameters 针对DataFrame可以有如下方式保存数据val原创 2017-10-06 11:55:15 · 7586 阅读 · 0 评论 -
Ganglia-Spark/Kafka编译与安装总结
Ganglia是一款优秀的监控软件,能够监控节点级别以及组件级别的监控,并且与Nagios配合可以做到监控提示的发送通知功能。Ganliga安装预先安装配置## 服务器端yum -y install rrdtool epel-release ganglia-devel ganglia-gmetad ganglia-gmond ganglia-web httpd php#...原创 2018-02-26 13:21:55 · 1265 阅读 · 0 评论 -
Apache Kylin编译CDH5.12.X
基于业务自动化需求,搭建Apache Kylin用于实时OLAP场景。一、编译官方提供的Apache Kylin目前仅支持到CDH5.7,更高版本的没有发布,或测试。针对公司的CDH版本,需要进行相关设置与编译,才能适用于公司的环境。1、Github获取代码git clone https://github.com/apache/kylin.gitgit checkou...原创 2018-03-07 11:04:09 · 1003 阅读 · 0 评论 -
翻译: Flink vs. Spark
在流处理技术框架的技术选型中,Storm/Spark/Flink进入视线。其中简单分析,就除去了Storm选项。Spark Streaming与Flink在流处理方面相差不大,甚至小规模流处理时可以直接使用Spark Streaming,因此需要详细的对比一下它们两者之间的共性与不同点。 本文是一篇译文,翻译自:Apache Spark vs. Apache Flink 。引言 Ap...翻译 2018-10-31 14:17:04 · 1005 阅读 · 0 评论 -
Flink vs. Spark简单分析
在技术架构与选型时,首先调研市面上常见的解决方案,然后从各方面进行比较,选择适合公司应用场景的技术。本文截取了文章Hadoop vs Spark vs Flink – Big Data Frameworks Comparison 中的比较表格。各项比较 文章来源:【 DataFlair: Hadoop vs Spark vs Flink – Big Data Frameworks Com...原创 2018-10-31 14:36:08 · 1640 阅读 · 0 评论