spark Scala
文章平均质量分 88
jxx4903049
这个作者很懒,什么都没留下…
展开
-
Spark任务执行流程随笔
当使用spark-submit提交一个作业之后,这个作业就会启动一个对应的driver进程。 根据你使用的部署模式(deploy-mode)不同,driver进程可能在本地启动,也可能在集群中某个工作节点上启动。 driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core。而driver进程要做的第一件事,就是向集群管理器(可以是Spar原创 2018-01-11 11:26:19 · 626 阅读 · 1 评论 -
Spark核心RDD:Sort排序详解
1.sortByKey无可非议sortByKey是Spark的最常用的排序,简单的案例暂且跳过,下面给一个非简单的案例,进入排序之旅对下面简单元祖,要求先按元素1升序,若元素1相同,则再按元素3升序(1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2)提示:sortByKey对于key是单个元素排序很简单,转载 2018-01-09 11:27:04 · 5677 阅读 · 0 评论 -
Linux更换scala版本,scala -version还是原来的版本问题
rm -rf /usr/bin/scalarm -rf /usr/bin/scalacln -s $SCALA_HOME/bin/scala /usr/bin/scalaln -s $SCALA_HOME/bin/scalac /usr/bin/scalac这样执行以后,然后 scala -version 、 scalac -version转载 2018-04-09 14:59:20 · 3288 阅读 · 0 评论 -
Rdd转换成SparkSQL的DataSet如何指定schema
与RDD进行相互操作SparkSQL支持两种不同方法将现有RDD转换成DataSets。第一种方法使用反射来推断包含特定类型对象的RDD的schema。这种基于反射的方法会导致更简洁的代码,并且在编写Spark应用程序时已经知道schema的情况下可以良好工作第二种创建Datasets的方法是通过编程接口,允许构建schema,然后将其应用于现在的RDD。此方法更加详细,但是它...原创 2018-10-09 22:12:15 · 555 阅读 · 1 评论 -
【转】Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once
转自:https://www.cnblogs.com/ChouYarn/p/9512102.html一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。二...转载 2019-08-21 14:56:27 · 358 阅读 · 1 评论