![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
wending-Y
这个作者很懒,什么都没留下…
展开
-
Spark 面试题
总结问题答案spark stage 化分宽依赖 ,如reducebykey groupbykeygroupbykey和reducebykey的区别reducebykey提前做一次合并spark streaming 消费数据不丢https://www.cnblogs.com/evakang/p/11043543.htmlspark OOM1.driver 端 collect算子 2.exector 内存不够spark 数据倾斜问题https://mp.w原创 2020-07-17 01:11:34 · 355 阅读 · 0 评论 -
Spark Transformations/Action 算子
Transformations 算子算子介绍map一对一转换算子filter过滤算子flatMap一生成多转换算子,返回数组mapPartitions每次处理一个分区的数据,效率高sample抽样算子union合并算子/可重intersection合并算子/无重distinct去重算子groupByKey聚合操作reduceByKey聚合操作/提前做合并sortByKey按Key排序joinrdd原创 2020-07-15 20:47:53 · 138 阅读 · 0 评论 -
Spark 常见问题
Spark中foreachRDD、foreachPartition和foreachforeachRDD 方法主要把数据发送到外部系统foreachRDD 遍历DStreamforeachPartition 遍历RDD里的分区foreach 遍历分区里的每条记录Spark中foreachRDD误区 connection 在driver上创建dstream.foreachRDD { rdd => val connection = createNewConnection() // exe原创 2020-07-12 12:55:10 · 409 阅读 · 0 评论 -
Spark Sql Join 全解
JOIN类型inner 默认连接,连接左右都匹配上的cross 笛卡尓积outer, full, full_outer 左右的结果全部列出,没匹配上的NULL代替left, left_outer 左边的全要,没匹配上的NULL代替right, right_outer 右边的全要,没匹配上的NULL代替left_semi 键在右边出现,只包括左边的,就是inner去掉右边行left_anti 键在右边出现没有出现,只保留左侧的参考代码import org.apache.spark.sql原创 2020-07-05 16:52:29 · 801 阅读 · 0 评论 -
Scala implicit 隐式函数,隐式参数,隐式类
隐式函数object TestImplicitMethod { implicit def convertInt2String(i: Int) = i.toString def main(args: Array[String]): Unit = { showMessage("this is ") //为什么类型1不报错,就是因为发现类型不匹配后 //去寻找有没有匹配的函数,发现有这样的函数 showMessage(1) } def showMessage(原创 2020-05-08 22:03:07 · 229 阅读 · 0 评论 -
spark sql连接hive时找不到驱动
spark sql连接hive时找不到驱动原创 2017-03-31 00:05:38 · 1305 阅读 · 0 评论 -
Spark Streaming WordCount 入门
首先确保环境运行正常nc -lk 9999 执行这个命令,如果命令没有安装 yum install -y nc把下面的一串命令直接写成脚本,方便运行spark-submit --master local[2] \--class org.apache.spark.examples.streaming.NetworkWordCount \--name wordcount \/opt/c原创 2018-01-07 20:46:21 · 369 阅读 · 0 评论 -
spark streaming与Kafka结合
1.代码import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.KafkaUtilsimport org.apache.spark.streaming.{Seconds, S原创 2018-04-17 01:02:18 · 345 阅读 · 0 评论 -
spark 程序 org.apache.spark.SparkException: Task not serializable
1.看代码,报上面这个错,原因可参考 https://www.cnblogs.com/zwCHAN/p/4305156.htmlpublic class StreamDemo implements Runnable { Map<String, Map<String, String>> mapping; public void init() { mapping = DaoU原创 2018-05-06 20:20:45 · 874 阅读 · 0 评论