![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 95
算啦粉
这个作者很懒,什么都没留下…
展开
-
SparkSQL之DataFrame 编程(创建DataFrame ,DataFrame数据运算操作 ,输出存储DataFrame)(11)
一 新的编程入口 SparkSession二 创建 DataFrames1 从RDD创建DataFrame2 从结构化文件创建DataFrame3 从外部服务器读取数据创建DataFrame三 DataFrame数据运算操作四 输出存储DataFrame原创 2021-08-27 15:48:15 · 1427 阅读 · 0 评论 -
Spark之多线程安全问题 ,RDD的错误示范,累加器(分布式计算器) ,shuffle算子特殊情况 ,调用别人的API怎么操作(9)
一 多线程安全问题二 定期更新规则三 累加器用来统计数据处理的条数 ,在Task局部聚合 ,再到Driver端sum在Driver端定义累加器 ,有以下三种形式 :1)collectionAccumulator :将异常数据保存到集合里面2)longAccumulator("累加器的名字")3) DoubleAccumulator无参val rdd1 = parallelize(List(1,2,3,4,5,6))---在Driver端定义...原创 2020-10-05 22:32:59 · 1223 阅读 · 0 评论 -
SparkCore之 自定义分区器, 自定义排序, 分组TopN ,序列化问题(8)
一 自定义分区器1 场景:根据自己的定义的分区规则 ,将数据shuffle的下游RDD按定义的规则分区 ,严格的说是下游的Task到上游拉取数据2 定义一个类 ,继承spark的Partitioner ,重写2个方法 ,获取分区的数量(numPartitions) ,根据输入数据的Key获取该数据返回的分区编号(getPartition)3 在Driver端(SparkContext) new一个自定义Partitioner类的实例,将该实例传入调用的会产生shuffle的算子(就是需要...原创 2020-10-02 22:26:19 · 597 阅读 · 1 评论 -
Spark之cache ,persist ,checkpoint ,广播变量及其案例 : 根据IP地址(浏览器访问日志获取) / 经度纬度定位地理位置案例(7)
一 cache二 persist三 checkpoint四 案例分析根据IP地址查找到位置信息(省市)原创 2020-10-01 23:23:07 · 1739 阅读 · 0 评论 -
Spark之用户连续登陆案例和流量统计案例分析-算子联用(6)
案例一 :计算出连续登陆三天的用户重要的算子 :repartitionAndSortWithinPartitions方法 ,分区并且在区里面进行排序数据如下 :guid01,2018-02-28guid01,2018-03-01guid01,2018-03-05guid01,2018-03-02guid01,2018-03-04guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-03guid...原创 2020-09-26 19:56:04 · 340 阅读 · 0 评论 -
Spark之RDD的Action算子和最受学生喜爱/欢迎的科目案例(5)
一 RDD 的 Action 算子Action :行动算子 ,调用行动算子会触发job执行 ,本质上是调用了sc.runJob方法 ,该方法从最后一个RDD,根据其依赖关系 ,从后往前 ,划分 Stage ,生成 TaskSet .二 对RDD的操作(创建,查看)1 创建 RDD的方法1.1 通过并行化方法 ,将 Driver端的集合转成 RDDval rdd1:RDD[Int] = sc.parallelize(Array(1,2,3,4,5,6,7),2...原创 2020-10-01 20:21:14 · 347 阅读 · 0 评论 -
Spark之RDD的Transformation算子map,flatMap,fliter,mapPartition,groupBy/reduceByKey,foldByKey,distinct.(4)
一 Transformation算子Transformation :即转换算子 ,调用转换算子会生成一个新的RDD ,Transformation是 Lazy的,不会触发job执行 .二 对RDD的操作(创建,查看)1 创建 RDD的方法1.1 通过并行化方法 ,将 Driver端的集合转成 RDDval rdd1:RDD[Int] = sc.parallelize(Array(1,2,3,4,5,6,7),2) --- 2可以省略不写 ,默认...原创 2020-09-30 23:04:55 · 564 阅读 · 0 评论 -
Spark之基本概念篇(RDD ,DAG,Task,TaskSet ,Stage,Shuffer,Job,dependency,Application,SparkContext)(3)
一 什么是RDDRDD的全称是 Resilient Distributed Dataset ,是一个弹性的 ,可复原的分布式数据集 .是 Spark中最基本的抽象,是一个不可变的 /有多个分区的 / 可以并行计算的集合 . RDD中并不装真正要计算的数据 ,而装的是描述信息 ,描述以后从哪里读取数据 ,调用了什么方法 ,传入了什么函数 ,以及依赖关系等 .二 RDD的特点1 有一些列连续的分区 :分区编号从0开始,分区的数量决定了对应阶段Task的并行度2 有一个函...原创 2020-09-30 16:32:03 · 1157 阅读 · 1 评论 -
Spark之在java客户端创建项目 ,以及使用scala / java / javaLambda 语言编写入门程序(2)
一 在java客户端创建 Spark项目1 打开 IDEA软件 ,在工具类上 File -->New --> Project ,选择 Maven ,然后下一步将项目名字写成spark即可 ,然后finish 完成项目的创建 .2 设置 Maven settings file的位置和 Local respository的位置 .3 在pom.xml配置文件中添加spark相关的依赖和插件<!-- 定义了一些常量 --> &...原创 2020-09-17 21:34:56 · 326 阅读 · 0 评论 -
Spark之简介 ,在虚拟机上安装和搭建集群流程(1)
一 Spark 简介1 什么是 Spark1.1 Spark是一种快速 /通用 /可扩展的大数据分析 /计算引擎 ,大数据处理框架 .1.2 Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。1.3 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同...原创 2020-09-16 23:26:08 · 712 阅读 · 0 评论