spark
有梦想的人不睡觉121
大数据开发
展开
-
spark读写Elasticsearch
关于scala代码和Elasticsearch集成已经很常见了直接一个maven配置<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-hadoop</artifactId> <version>6.1.0</ve...原创 2019-11-22 14:51:59 · 973 阅读 · 0 评论 -
spark调优
数据序列化 内存调整 内存管理概述 确定内存消耗 调整数据结构 序列化RDD存储 垃圾收集调整 其他考虑因素 并行程度 减少任务的内存使用情况 广播大变量 数据位置 概要由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈:CPU,网络带宽或内存。大多数情况下,如果数据适合内存,瓶颈就是网络带宽,但有时候,您还需要进行一些...翻译 2018-08-14 16:49:27 · 6092 阅读 · 0 评论 -
spark监控
有几种方法可以监控Spark应用程序:Web UI,指标和外部检测。Web界面默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括:调度程序阶段和任务的列表 RDD大小和内存使用情况的摘要 环境信息。 有关运行执行程序的信息您只需http://<driver-node>:4040在Web浏览器中打开即可访...翻译 2018-08-14 16:51:59 · 7466 阅读 · 0 评论 -
Spark的调度系统
一,简介Spark调度机制可以理解为两个层面的调度。首先,是Spark Application调度。也就是Spark应用程序在集群运行的调度,应用程序包括Driver调度和Executor调度。其次,就是每个Spark Application都会有若干Jobs(Spark Actions),然后这些job是以何种机制,在Executor上执行的,也是需要一个调度管理的机制,该层面调度也可以理解...转载 2018-08-23 09:32:59 · 8870 阅读 · 0 评论 -
SparkSQL – 从0到1认识Catalyst
原文地址:http://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有...转载 2018-08-23 21:13:59 · 9412 阅读 · 4 评论 -
Waterdrop帮你快速玩转Spark数据处理
原文地址:https://blog.csdn.net/gaoyingju/article/details/79394729Waterdrop 项目地址:https://interestinglab.github.io/waterdropDatabricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此...转载 2018-11-19 19:01:20 · 1451 阅读 · 0 评论 -
SQL实现Structured Streaming
需要的配置只有一个sql文件1.实现socket输入 console输出配置:CREATE TABLE SocketTable( word String, valuecount int)WITH( type='socket', host='hadoop-sh1-core1', port='9998', delimiter=' ');...原创 2018-12-12 14:19:09 · 830 阅读 · 3 评论 -
StructuredStreamingInSQL项目SQL的动态添加
改变sql语句而不用重启项目实现更新目前只实现了动态添加,动态删除待实现kafka的配置为CREATE TABLE kafkaTable( word string, wordcount int)WITH( type='kafka', kafka.bootstrap.servers='dfttshowkafka001:9092', proces...原创 2018-12-17 17:11:07 · 575 阅读 · 1 评论 -
StructuredStreamingInSQL项目实现动态更新 新版(直接替换,无需重启)。
CREATE TABLE kafkaTable( word string)WITH( type='kafka', kafka.bootstrap.servers='kafka001:9092', processwindow='10 seconds,10 seconds', watermark='10 seconds', subscribe='te...原创 2019-01-03 17:34:45 · 593 阅读 · 1 评论 -
Spark推测执行spark.speculation
1. 背景hadoop的推测执行 推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生...转载 2018-08-14 15:16:32 · 6699 阅读 · 0 评论 -
Streaming流式框架汇总
原文:https://github.com/InterestingLab/awesome-streaming#online-machine-learningA curated list of awesome streaming (stream processing) frameworks, applications, readings and other resources. Inspired...转载 2018-08-14 13:38:01 · 7828 阅读 · 0 评论 -
Spark Streaming计算模型及监控
Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Str...转载 2018-08-10 10:21:23 · 7750 阅读 · 0 评论 -
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive[1] 平台( Apache Hive 由 Facebook 贡献于 2009 年)和 Corona[2] 上——这是我们定制的 MapReduce 实现。Facebook 还不断增加其对 Presto 的用量...转载 2018-08-10 10:24:25 · 6528 阅读 · 0 评论 -
Spark知识体系完整解读
Spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供...转载 2018-08-10 10:25:18 · 6274 阅读 · 0 评论 -
基于Spark的用户行为路径分析
一、研究背景互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基于行为日志统计用户行为路径,为运营人员提供更好的运营决策。可以实现和成熟产品如adobe analysis类似的用户行为路径分析。最终效果如图。使用的是开源大数...转载 2018-08-10 10:30:07 · 7857 阅读 · 1 评论 -
Spark Streaming应用与实战全攻略
一、背景与架构改造 1.1 问题描述有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下:架构改造之前以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没做任何缓冲,要是HBase出现了问题整个集群都完蛋,没法写入数据,数据还丢失,HBase这边压力也相当...转载 2018-08-10 10:30:59 · 7434 阅读 · 0 评论 -
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:Spark SQL 使用场景数据加载:云和本地, RDDs 和 DataFramesSQL 和 DataFrame API 比较,它们之间的区别模式: 隐式和显示模式解释,数据类型数据加载以及结果保存等SQL 使用场景,什么时候不适合使用 SQL使用 SQL 进行 ETL操作 JSON 数据从外...转载 2018-08-10 11:03:50 · 6091 阅读 · 2 评论 -
Apache Spark 统一内存管理模型详解
本文将对 Spark 的内存管理模型进行分析,下面的分析全部是基于 Apache Spark 2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析,如对之前的静态内存管理感兴趣,请参阅网上其他文章。 我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演...转载 2018-08-10 11:05:43 · 6141 阅读 · 0 评论 -
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他...转载 2018-08-10 14:03:01 · 5916 阅读 · 0 评论 -
DirectKafkaInputDStream源码分析(包含动态分区感知)
先上一个官网的栗子:object DirectKafkaWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println(s""" |Usage: DirectKafkaWordCount <brokers> <topics...原创 2018-08-14 09:30:42 · 7670 阅读 · 0 评论 -
spark2.0访问ES5.1中的数据
需求是从ES中读取数据进行分析,本来想用java想用java纯代码写的,但是太麻烦,所以就用了sparksql来分析,实现需求 后来发现一个问题,单纯的java代码无法实现es数据的join操作,即使能实现也是麻烦到姥姥家,所以,贡献一下我的方案 先上依赖:测试依赖 junit junit 4.11 test原创 2017-09-26 17:11:43 · 3188 阅读 · 3 评论