![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
静静七分醉
该动手的年龄别只动脑
展开
-
Spark的UI优化+gc优化
集群环境集群环境可以看到集群一个有280G内存,120核数,5个节点spark-submit--启动命令含义:spark-submit classcn.dmp.tools.Bzip2Parquet\类的main方法所在类--master yarn--deploy-mode cluster \ 运行模式--driver-memory 4g \共280g...原创 2019-08-15 13:32:04 · 4263 阅读 · 0 评论 -
SparkStreaming — 历史数据的累加处理 — 滑动窗口机制 — 将Kafka和SparkStreaming整合
目录1. SparkStreaming2. SparkStreaming对历史数据的累加处理3. SparkStreaming的滑动窗口机制4.将Kafka和SparkStreaming整合1. SparkStreamingpackage com.lj.streamimport org.apache.spark.SparkConfimport org.apache...原创 2019-09-09 16:51:33 · 1304 阅读 · 1 评论 -
Spark系列二:SparkCore的RDD算子Transformation和Action详解
目录概述RDD 与 普通的集合有哪些区别RDD的属性创建RDD方式RDD的算子RDD的Transformation的特点常用的TransformationaggregateByKeyfilterByRangeflatMapValuesfoldByKeycombineByKey常用的ActionaggregatecollectAsM...原创 2019-07-12 08:16:28 · 596 阅读 · 1 评论 -
Spark系列八:序列化本质问题对Spark的影响
目录方案一:直接在map创建规则实例方案二:闭包方案三:静态对象方案四:在Executor中实例化一个object需求:如何在spark中匹配规则,来删选单词。方案一:直接在map创建规则实例缺点:如果有许多数据那么处理一条就需要进入map,new 一个实例,它每个打印出来的toString地址都不一样,它用完这个实例就不在使用了,被垃圾回收了在map的函数中,...原创 2019-07-07 15:36:29 · 278 阅读 · 0 评论 -
Spark经典案列之JdbcRDD就不用sqoop了
JdbcRDD图示:代码展示:object JdbcRddDemo { val getConn = () => { DriverManager.getConnection("jdbc:mysql://localhost:3306/lj?characterEncoding=UTF-8", "root", "root") } def main(args: A...原创 2019-09-10 20:05:04 · 7750 阅读 · 0 评论 -
Spark系列七:Spark 任务执行的流程详解及相关概念
目录spark总体流程图示图解详解DAG(Directed Acyclic Graph)详解Stage总结细节流程总体流程线程池序列化spark总体流程图示:图解:四个步骤1.RDD Objects:构建DAG(调用RDD上的方法)2.DAGScheduler将DAG切分Stage(切分的依据是Shuffle),将Stage中生成的Task以...原创 2019-07-07 13:51:02 · 753 阅读 · 0 评论 -
Spark系列九:SparkCore的经典总结——Spark任务执行各对象创建的时机
1.SparkContext哪一端生成的? Driver端2.DAG是在哪一端被构建的? Driver端 3.RDD是在哪一端生成的? Driver端4.广播变量是在哪一端调用的方法进行广播的? Driver端5.要广播的数据应该在哪一端先创建好再广播呢? Driver端6.调用RDD的算子(Transformation和Acti...原创 2019-07-13 19:22:55 · 289 阅读 · 0 评论 -
Spark系列三:Spark经典案列之 求前几名问题,最受欢迎的
1.在所有的老师中求出最受欢迎的老师Top32.求每个学科中最受欢迎老师的top3(至少用2到三种方式实现)文件内容;http://english.com.lj/laodahttp://english.com.lj/laodahttp://english.com.lj/laoerhttp://english.com.lj/laoerhttp://english.com.lj/...原创 2019-07-07 13:01:41 · 926 阅读 · 0 评论 -
Spark系列五:Spark经典案列之使用各种方法实现自定义排序
目录概述方案汇总方法一方法二方法三方法四方法五方法六概述总体需求:Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")排序规则:首先按照颜值的降序,如果颜值相等,再按照年龄的升序。下面列举了各种排序思路。方案汇总方法一建了一个user类,继承了...原创 2019-07-07 10:23:39 · 329 阅读 · 0 评论 -
Spark系列四:Spark的经典入门案列之ip地址归属地查询
目录概述代码实现单级模式分布式模式方案一:方案二:工具类提示:所有需要的文件我全部放在资源里面了,可以自行下载概述需求:根据访问日志的ip地址计算出访问者的归属地,并且按照省份,计算出访问次数,然后将计算好的结果写入到MySQL解决方案流程: 1.整理数据,切分出ip字段,然后将ip地址转换成十进制 2.加载规则,整理规则,取出有用的字段...原创 2019-07-07 09:51:05 · 697 阅读 · 0 评论 -
Spark系列十七:经典案列使用直连的方式,Kafka,SparkSteaming,Redis
先一个一个java程序,读取日志文件中的数据,然后将数据写入到Kafka中,然后写一个SparkSteaming程序,使用直连的方式读取Kafka中的数据,计算如下指标该文件是一个电商网站某一天用户购买商品的订单成交数据,每一行有多个字段,用空格分割,字段的含义如下用户ID ip地址 商品分类 购买明细 商品金额A 202.106.196.1...原创 2019-07-15 13:21:29 · 580 阅读 · 0 评论 -
Spark系列十六:Spark Streming
实时计算相关技术比较 Strom / Jstrom Spark Streming Flink 实时性高 有延迟 实时性高 吞吐量较低 吞吐量...原创 2019-07-14 16:35:54 · 743 阅读 · 0 评论 -
Spark系列一:Spark入门,和他的第一次碰面是这样的
目录1.提交第一个spark应用到集群中运行2.提交一个spark程序到spark集群,会产生哪些进程?3.Spark Shell案例:用spark Shell完成WordCount计算4.Spark中的重要角色 5.Spark任务执行过程简介6.Yarn和Spark的StandAlone调度模式对比7.用idea编写spark程序1.提交第一个spar...原创 2019-07-12 15:31:37 · 338 阅读 · 2 评论