spark数据沙盒
傲慢程序员
脑子里全是偏见的傲慢程序员
展开
-
Spark的driver和executor简化版理解
为了调试python脚本在spark-sumit时要注意的事项,网上查了一通资料 然后发现了这篇 Spark的driver理解和executor理解 又是图又是代码的讲了好多, 其实开头那个图已经有核心要点了 图中每一个白背景黑线框就是对应物理机器的粒度 图上没有说到的,是driver program的位置会因为提交作业时的deploy-mode参数和cluster manager 的调度策略而...原创 2019-08-18 21:07:44 · 929 阅读 · 1 评论 -
spark实战项目之一,构造kafka数据源
项目背景 目的是熟悉spark的使用和编程套路 官方demo是要看的,但毕竟是demo,离工程实际太远 考虑后,决定构造一个数据沙盒,然后在用spark在这个数据沙盒内实现一个在线推荐算法 算法调通后,可以在其他数据集上去尝试效果 数据沙盒,是指规划的这个在线推荐算法,接受的所有数据源,包括用户反馈都是程序构造的,算法要解决的实际问题并不是一般的提升转化率或利润率,而是挑战测试数据的输入方。 这种...原创 2019-08-15 15:50:28 · 253 阅读 · 0 评论 -
spark实战项目之二,读kafka数据流,分组计数
输入数据来自kafka,十行一组,每组4个数字 长这样 706260,34,13,10 653244,16,8,43 395410,23,15,8 735026,30,29,16 106844,45,29,33 796853,14,41,37 324616,15,5,37 156450,41,2,27 385898,47,34,5 710053,30,37,27 从简单入手,想算出他们按后三个数...原创 2019-08-17 23:38:13 · 559 阅读 · 0 评论