spark 教程
文章平均质量分 70
spark 学习笔记
mustafa3264
善战者无赫赫之功
展开
-
SparkStreaming经典 demo
在短视频流行的当下,推荐引擎扮演着极其重要的角色,而要想达到最佳的推荐效果,推荐引擎必须依赖用户的实时反馈。所谓实时反馈,其实就是我们习以为常的点赞、评论、转发等互动行为,不过,这里需要突出的,是一个“实时性”、或者说“及时性”。毕竟,在选择越来越多的今天,用户的兴趣与偏好,也在随着时间而迁移、变化,捕捉用户最近一段时间的兴趣爱好更加重要。原创 2024-04-21 22:57:37 · 682 阅读 · 0 评论 -
sparkStreaming Batch mode和Continuous mode
当数据像水流一样,源源不断地流进 Structured Streaming 引擎的时候,引擎并不会自动地依次消费并处理这些数据,它需要一种叫做 Trigger 的机制,来触发数据在引擎中的计算。换句话说,Trigger 机制,决定了引擎在什么时候、以怎样的方式和频率去处理接收到的数据流。原创 2024-04-18 23:36:19 · 496 阅读 · 1 评论 -
SparkUI 讲解
在日常的开发工作中,我们总会遇到 Spark 应用运行失败、或是执行效率未达预期的情况。对于这类问题,想找到根本原因(Root Cause),我们往往需要依赖 Spark UI 来获取最直接、最直观的线索。原创 2024-04-17 22:51:50 · 1550 阅读 · 0 评论 -
Spark AQE(Adaptive Query Execution)机制
AQE 的全称是 Adaptive Query Execution,翻译过来是“自适应查询执行”。它包含了 3 个动态优化特性,分别是 Join 策略调整、自动分区合并和自动倾斜处理。原创 2024-04-13 21:21:47 · 1428 阅读 · 0 评论 -
sparkSql join 关联机制
Join 有 3 种实现机制,分别是 NLJ(Nested Loop Join)、SMJ(Sort Merge Join)和 HJ(Hash Join)原创 2024-04-13 21:19:08 · 1065 阅读 · 0 评论 -
理解 SparkSQL DataFrame 对 RDD 的优化
Spark 只知道开发者要做 map、filter,但并不知道开发者打算怎么做 map 和 filter。换句话说,对于 Spark 来说,辅助函数 f 是透明的。在 RDD 的开发框架下,Spark Core 只知道开发者要“做什么”,而不知道“怎么做”。这让 Spark Core 两眼一抹黑,除了把函数 f 以闭包的形式打发到 Executors 以外,实在是没有什么额外的优化空间。而这,就是 RDD 之殇。原创 2024-04-06 22:43:56 · 839 阅读 · 0 评论 -
spark 经典demo 的 scala 和 java 实现
spark 经典demo 的 scala 和 java 实现原创 2024-04-06 22:39:32 · 1353 阅读 · 0 评论 -
java操作hdfs文件系统
maven做如下配置groupId:org.apache.hadoopartifactId:hadoop-clientversion:${hadoop.version}代码如下:获取文件系统 private static FileSystem getFileSystem() throws Exception{ Configuration conf = new Configuration();...原创 2018-05-13 20:40:39 · 344 阅读 · 1 评论 -
hadoop常用配置项
记一下hadoop安装常用的配置项,防止安装软件的时候遗漏掉什么core-size.xmlfs.defaultFS 默认文件系统路径hadoop.tmp.dir 临时文件目录hdfs-site.xmldfs.namenode.http-address namenode节点路径dfs.datanode.secondary.http-address secondnamenode节点路径dfs.repl...原创 2018-05-12 17:21:23 · 292 阅读 · 1 评论 -
spark 各类运行模式的环境配置
local模式JAVA_HOME=/home/software/jdk1.8.0_202SCALA_HOME=/home/software/scala-2.10.5HADOOP_CONF_DIR=/home/software/hadoop-2.6.0-cdh5.16.2/etc/hadoopSPARK_LOCAL_IP=mustafa-PC使用以下命令测试运行bin/run-example --master local SparkPistandalone模式spark-env.原创 2020-07-21 08:39:52 · 257 阅读 · 1 评论 -
spark版wordcount实现
spark-shellval wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()wordCounts.collect()java1. 引入依赖包repositories { maven{ url 'http://maven.aliyun.com/nexus/content/groups/public/'}}ext { hadoopVersion原创 2020-07-17 00:32:55 · 222 阅读 · 1 评论 -
拜访斯巴克(Spark)建筑集团——理解 spark 的调度系统、shuffle 管理、内存管理、存储系统
话说很久以前,美国有一家名扬海内外的建筑集团,名为“斯巴克(Spark)”。这家建筑集团规模庞大,设有一个总公司(Driver),和多个分公司(Executors)。斯巴克公司的主要服务对象是建筑设计师(开发者),建筑设计师负责提供设计图纸(用户代码、计算图),而斯巴克公司的主营业务是将图纸落地、建造起一栋栋高楼大厦。原创 2024-04-04 09:58:43 · 1148 阅读 · 1 评论 -
Spark常用算子的实现原理
💐💐扫码关注公众号,回复关键字下载geekbang 原价 90 元 零基础入门 Spark 学习资料💐💐。原创 2024-04-04 09:55:02 · 956 阅读 · 0 评论 -
理解RDD基本属性与Spark进程模型
从薯片的加工流程看 RDD 的 4 大属性:partitions:数据分片 partitioner:分片切割规则 dependencies:RDD 依赖 compute:转换函数原创 2024-04-02 09:30:00 · 977 阅读 · 0 评论 -
Spark 基础教程 一文看懂 spark 常用操作汇总
Spark 基础教程 一文看懂 spark 常用操作汇总原创 2024-04-02 09:15:00 · 1577 阅读 · 0 评论 -
spark core 案例:分组并在组内取topN
输入数据:aa 78bb 98aa 80cc 98aa 69cc 87bb 97cc 86aa 97bb 78bb 34cc 85bb 92cc 72bb 32bb 23期望输出:(aa,78)(aa,80)(aa,97)(bb,92)(bb,97)(bb,98)(cc,86)(cc,87)(cc,98)scala代码:object GroupSortedTopN { def main(args: Array[String]):原创 2020-08-02 21:10:51 · 232 阅读 · 1 评论 -
spark rdd转换为dataFrame的两种方式
1. 隐式转换toDF1)使用case-classcase class Person(name: String, age: Int)引入隐式转换的包import sqlContext.implicits._创建case-class的Rdd val rdd: RDD[Person] = sc.parallelize(Array( Person("fanghailiang", 29), Person("sunyu", 28), Person原创 2020-08-16 23:33:47 · 4458 阅读 · 1 评论 -
SparkStreaming wordcount程序
build.gradle 添加配置implementation "org.apache.spark:spark-streaming_$scalaVersion:$sparkVersion"main方法 def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("WordCountStream") val sc = SparkConte原创 2020-08-21 23:54:22 · 139 阅读 · 1 评论 -
spark stream读取kafka wordcount程序并累计分批的结果
java kafka生产者/消费者 代码参考这篇博客https://blog.csdn.net/fanghailiang2016/article/details/108249158通过aparkStreaming读取kafka中数据,进行wordcount单词统计gradle配置如下implementation "org.apache.spark:spark-streaming-kafka-0-10_$scalaVersion:$sparkVersion"读取kafkaStram进行单词.原创 2020-08-27 08:38:17 · 285 阅读 · 1 评论