![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 84
beTree_fc
还行吧
展开
-
csv、parquet、orc读写性能和方式
索引:1.背景2.存储方式3.存储效率4.读写方式5.结论6.其他格式背景 最近在做一个大数据分析平台的项目,项目开发过程中使用spark来计算工作流工程中的每一个计算步骤,多个spark submit计算提交,构成了一个工作流程的计算。其中使用csv来作为多个计算步骤之间的中间结果存储文件,但是csv作为毫无压缩的文本存储方式显然有些性能不够,所以想要寻找一个存储文件效率更高或者执行效率...原创 2018-03-11 21:51:39 · 7276 阅读 · 0 评论 -
Spark面试汇总
原作者:徐茂盛原博客:https://blog.csdn.net/bingoxubin/article/details/790879611、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mappe...转载 2018-08-01 17:14:55 · 363 阅读 · 0 评论 -
Ocean 调度框架
前言MySQL、Redis、Memcache、Grafana等等抽象为了PAAS平台ocean的服务组件。ocean平台作为小米公司级PAAS平台,目前正在做的事情和后续的一些规划,这里简单列几个:CI/CD、故障注入、故障自愈、容量测试等等。目前ocean平台已支持IDC和多云环境,此次分享只介绍IDC内的实践。ocean平台因启动的比较早,当时k8s还没有release版本...原创 2018-07-18 08:43:44 · 1176 阅读 · 0 评论 -
Spark 相关
一、Spark SQL相关1.spark sql 要比shark 快的几点:A.内存列存储,有点像parquet或者orc等列式存储格式,存储效率高B.字节码生成技术,主要是避免了虚函数的调用,转变成了scala函数映射,在sql语句执行的时候,具体方法执行(例如 sort中的compare)会调用虚函数,虚函数调用会导致指令集预读失效,因为虚函数后面的指令集不是马上要执行的,导致cpu需要被暂停...原创 2018-05-31 16:03:09 · 201 阅读 · 0 评论 -
Scala并发编程基础
转载作者:摇摆少年梦转载地址:https://blog.csdn.net/lovehuangjiaju/article/details/47623177本节主要内容Scala并发编程简介Scala Actor并发编程模型react模型Actor的几种状态Actor深入使用解析1. Scala并发编程简介2003 年,Herb Sutter 在他的文章 “The Free Lunch Is Over...转载 2018-05-28 15:43:24 · 812 阅读 · 0 评论 -
Spark - 深入浅出解析Spark中的RPC (RpcEnv、RpcEndPoint、RpcEndPointRef)
转载作者:知乎 - neoReMinD前言Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信,本文主要介绍不同的Spark组件之间是如何通过RPC(Remote Procedure Call) 进行点对点通信的。分为3个章节,Spark RPC的简单示例和实际应用Spark RPC模块的设计原理Spark RPC核心技术总结1. Spark RPC的简单示...转载 2018-05-10 21:41:04 · 3501 阅读 · 0 评论 -
启动命令以及web-ui-port hdfs/hadoop/spark/yarn/hive/hbase/storm/zookeeper/Hcatalog......
转载地址:https://blog.csdn.net/baibenny/article/details/53887422组件开启关闭WEB UI端口号jps显示Falocnbin/falcon-startbin/falcon-stop15443FalconserverOoziebin/oozied.sh startbin/oozied.sh stop11000BootstrapHivehiveex...转载 2018-04-19 22:02:47 · 287 阅读 · 0 评论 -
scala map 小括号与大括号
原文地址:http://hongjiang.info/scala-pitfalls-2/spark编程的时候的时候看到这样的一个用法:作为接触scala两天半的我有些看不明白了。好一番搜索看到这样的答案:下面的问题,表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala...转载 2018-04-15 19:00:24 · 5337 阅读 · 3 评论 -
Spark的spark.sql.warehouse.dir相关
背景 1.今天看到spark中关于sql的配置spark.sql.warehouse.dir的配置选项,不太明白其作用,正好官网有一段关于此的介绍,正好试验一下。 2.修改spark.sql.warehouse.dir无效,没有起作用,表信息还是放到了默认路径下,而不是我们指定的路径 3.此外,如果该选项处理不好的话,会报出的错误:报错情况如下:Ex...原创 2018-04-08 22:06:00 · 26761 阅读 · 3 评论 -
kafka web页面监控KafkaOffsetMonitor
原文地址:http://blog.csdn.net/qq_20641565/article/details/72897666黑窗口的kafka集群没有监控,可以使用三方开源的监控工具,查询了些资料,网上流传最多的有三个监控工具:Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor先补一张生产数据(28个patition,不算冗余的数据 一天大概200G...转载 2018-03-12 20:49:43 · 32289 阅读 · 3 评论 -
kafka rebalance ConsumerRebalanceListener的写法
背景 kafka 在有新消费者加入或者撤出时,会触发rebalance操作,在subscibe订阅主题的时候,我们可以编写回掉函数,在触发rebalance操作之前和触发成功之后,提交相应偏移量和获取拉取偏移量代码 订阅主题的时候consumer.subscribe(Collections.singletonList(topic), new SaveOffsetO...原创 2018-03-12 16:12:10 · 8892 阅读 · 1 评论 -
Spark 2.4 新特性和PPT
即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。 新...原创 2018-09-21 10:20:11 · 3337 阅读 · 0 评论