Spark
文章平均质量分 78
叫我莫言鸭
这个作者很懒,什么都没留下…
展开
-
关于hiveonSpark的错误问题
关于Spark的配置。原创 2023-09-04 19:00:24 · 514 阅读 · 0 评论 -
Spark最后一课
如果是Client模式,则Driver就是本机了,Executor 会直接交互本机,远程访问提交,不能停止,同时所有Executor会交互本机,而本机资源不足,会导致系统和网络崩溃.按照等级进行尝试,从高等级到低等级,降级机制.如何避免多次访问通一个节点?9.Driver调用资源,找到空闲的NM,进行Executor注册,然后进行任务的切分和分配.全部写入到一个文件中,保证文件内容有序,同时,使用稀疏索引来确定数据的位置。10.Executor 启动线程池,根据优先算法依次启动task线程.原创 2023-08-25 20:24:41 · 935 阅读 · 0 评论 -
spark第四课
不推荐collect,因为他是将数据放入内存,但是内存不够大的话,就容易崩,所以使用saveAsTextFile更好,直接放入磁盘.Job数量: 只要执行一个行动算子,就会产生一个作业.(不考虑前面,例如sortby也会产生一个作业)分区的大于foreach,因为foreach是一个一个压栈,而Partition是一个区一个区压栈。Stage数量(一个job至少一个阶段,1个shuffle就是一个阶段)依赖是在创建时就已经确定了,而shuffle是在创建后运行时才使用的.原创 2023-08-21 10:24:38 · 540 阅读 · 0 评论 -
Spark第三课
sortby方法需要传3个参数参数1 排序规则参数2 升序还是降序(false) 默认升序(true)参数3 排序的分区数量(说明方法底层是靠shuffle实现,所以才有改变分区的能力)如何区分是键值对方法还是单值方法呢?通过参数来判断, 如果参数是一个值,就是单值,如果是2个,就是键值对直接对value进行操作,不需要管K当然,也有mapKey方法可以无视Value操作Key。原创 2023-08-18 20:54:22 · 1076 阅读 · 0 评论 -
Spark第二课RDD的详解
RDDJAVA中的IO。原创 2023-08-16 21:28:54 · 1029 阅读 · 0 评论 -
Spark第一课入学篇
hashmap 一个节点放8个, 链表长度为8,不操作,但是第9个时,就开始数据倾斜,开始修正,hashmap的数组默认长度为16,这时候开始扩容2倍,当放第10个时,数组再扩容2倍,64, 再放11个时,修改链表数据结构变成红黑二叉树。Spark是无法读取文件的,底层读文件采用的是Hadoop方式,所以文件分区不是Spark决定的,是Hadoop决定的,Hadoop读取文件的切片就是Spark的分区.trim去掉的是半角空格(老外的),并不能去掉全角空格(亚洲)原创 2023-08-15 18:54:20 · 242 阅读 · 0 评论