- 博客(8)
- 收藏
- 关注
转载 spark streaming 里的transform 与foreachRDD
spark streaming 里的transform 转换函数里是不能有关于rdd的action操作,有也不会执行,只能使用普通算子,也不能有任何的输出操作,不会执行。 foreachRDD 里可以有关于rdd的action操作,也可以有其他算子操作。 另外ssc.sparkCont...
2017-03-30 16:14:00 811
转载 countByValueAndWindow 与countByWindow=reduceByWindow与reduceByKeyAndWindow
countByValueAndWindow 与countByWindow区别 看源码countByWindow 首先把内容转成1的数字的形式 ,然后调用 reduceByWiindow 函数 defcountByWindow( windowDuration:Durati...
2017-03-30 09:18:00 456
转载 java.lang.NoClassDefFoundError: org/apache/spark/Logging
spark streaming 访问kafka遇到的问题: java.lang.NoClassDefFoundError: org/apache/spark/Logging 1: 因为spark-core_2.11-2.0.0.jar和spark-core_2.11-1.5.2.jar,发...
2017-03-26 12:39:00 465
转载 sparkSQL里 sql语句,dataframe,Thrift Server JDBC都可以实现对数据的查询,过滤等操作, 哪这3种情况分别是什么情况下使用...
sparkSQL里 sql语句,dataframe,Thrift Server JDBC都可以实现对数据的查询,过滤等操作, 哪这3种情况分别是什么情况下使用,,还是随意根据个人习惯? ...
2017-03-22 16:50:00 182
转载 scala apply方法 笔记
Scala比Java更面向对象的一个方面是Scala没有静态成员。替代品是,Scala有单例对象:singleton object。 当单例对象与某个类共享同一个名称时,他被称作是这个类的伴生对象:companion object。你必须在同一个源文件里定义类和它的伴生对象。类被称为是这个单...
2017-03-22 16:28:00 72
转载 广播变量和累加器是多少首都师大
一、广播变量和累加器 1.1 广播变量: 广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些...
2017-03-22 16:15:00 123
转载 桶表
桶表 对立面的记录做一个hash计算,经过hash运算后, 然后对hash进行取模计算,比如mod 10,那么取模计算后,划分的每份的数据量是差不多的, 模的数据为桶,模10的话,那么就有10个桶,那么各个map进行计算的时间差不多,缺点:用业务字段来查询的话,没有什么效果。 进行表连...
2017-03-22 16:12:00 132
转载 rdd的partition既然是不可控
spark中的partion是弹性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的...
2017-03-22 15:35:00 72
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人