![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scala
harli
移椅倚桐同赏月,等灯登阁各攻书!
展开
-
窄依赖的pipeline作用对象分析
当父子RDD间的依赖为窄依赖时,可以pipeline 但对应的pipeline作用在分区数据层,而不是作用在记录级别,在性能上并没有完全体现pipeline的最大优势。如:filter + map, 对应在父RDD的各个分区中,会有一次iterator的filter,然后pipeline时,再次子RDD各个分区的iterator的map。如果iterator本身支持pipeline,则可以通过sc原创 2015-03-13 11:26:30 · 591 阅读 · 0 评论 -
spark sql 中 hive变量的使用记录
一、 使用变量的方式: 和 hive 中使用方式一样,如 ${varName}案例如下:scala> spark.sql("set unit_len=8")res3: org.apache.spark.sql.DataFrame = [key: string, value: string]scala> spark.sql("set unit_flag=unit_day"原创 2016-08-19 14:18:34 · 8735 阅读 · 0 评论