spark
老男孩-Leo
1.时刻保持学习的姿态
2.一天不进步,就是退步!
3.专注但要有大局观(先大后小,思路为先,实验为辅),一个人一生只要做好一件事就够了!记住:凡事预则立,不预则废。
展开
-
Scala 数组(Array),列表(List),元组(Tuple),集(Set),映射(Map),迭代器(Iterator)
1. 数组(Array)数组是编程中经常用到的数据结构,一般包括定长数组和变长数组。本教程旨在快速掌握最基础和常用的知识,因此,只介绍定长数组。定长数组,就是长度不变的数组,在Scala中使用Array进行声明,如下:val intValueArr = new Array[Int](3) //声明一个长度为3的整型数组,每个数组元素初始化为0intValueArr(0) = 12 //给第1个数原创 2017-08-02 15:03:53 · 4069 阅读 · 0 评论 -
Spark数据倾斜问题
Spark数据倾斜问题数据倾斜问题现象原因数据问题spark使用问题数据层面分析解决方案数据倾斜问题现象多数task执行速度较快,少数task执行时间非常长,一直卡在某一个stage达几小时或者几分钟之久,或者等待很长时间后提示你内存不足,执行失败。图中可以很明显的看出是卡在reduceByKey的算子上。原因常见于各种shuffle操作,例如reduceByKey,groupByK...原创 2019-01-23 15:23:24 · 625 阅读 · 0 评论 -
mongo批量插入问题(insert_many,bulk_write)
mongo批量插入问题1. 遇到问题2. 解决问题2.2 方法1:批量插入insert_many2.3 方法2:批量更新bulk_write(UpdateOne)2.3.1 bulk_write定义3. 性能测试1. 遇到问题每天通过spark等数据库框架批量处理的结果数据最少500万条记录,每天需要导入到mongo数据库,最初通过update one的方法一条一条进行更新插入,耗时大约2小时...原创 2019-07-08 15:01:18 · 24179 阅读 · 5 评论