spark
wyc_595998412
希望在今后5年实现以下目标:1、读最好的书 2、见最优秀的人 3、走一条属于自己的路。
展开
-
spark的广播变量详细解读
1,为什么要使用广播变量?举一个简单的例子,我们要处理一份log文件,里面有ip地址。20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=shoplist2.php&style=1&s通过切分我们可以拿到ip。现在要求我们通过这个ip得到这个ip属于哪个省份。ip规则如下(简...原创 2018-08-25 16:46:30 · 2129 阅读 · 0 评论 -
Hadoop、Spark五种大数据框架解析
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。 本文首发于InfoQ垂直号「大数据杂谈」,转载已获授权。 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的...转载 2018-09-02 12:05:33 · 2183 阅读 · 0 评论 -
spark任务生成和提交流程详解
首先将代码打包上传到集群1、Driver端会调用SparkSubmit类(内部执行submit->doRunMain->通过反射获取应用程序的主类对象->执行主类的main方法)2、构建sparkConf和sparkContext对象,在sparkContext入口做了三件事,创建了sparkEnv对象(创建了ActorSystem对象)TaskScheduler(用来生...原创 2018-09-02 18:11:48 · 1551 阅读 · 0 评论