2017年11月_about云

12月 11月

转载 spark2.2 SparkSession思考与总结1

问题导读1.你认为为何出现SparkSession？2.SparkSession如何创建RDD？3.SparkSession通过那个类来实例化？4.bulider包含哪些函数？为何出现SparkSession对于spark1.x的版本，我们最常用的是rdd，如果我们想使用DataFrame，则需要通过rdd转换。随着dataframe和dataset使用的越来越多，所以spark就寻找了新的切入点

2017-11-26 00:00:00 1892

转载 spark2.2以后版本任务调度将增加黑名单机制

问题导读1.spark如何开启黑名单机制？2.哪些条件将将executors列入黑名单？3.整个节点被列入黑名单，executors如何处理？spark2.2中在任务调度中，增加了黑名单机制，提高了资源分配的效率。不同条件分别会将executors和整个节点加入黑名单。但是加入黑名单，也是有时间限制的，我们可以自定义时间，超过了这个时间，将会被资源管理器回收。对于如

2017-11-20 00:00:00 1533

原创如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

问题导读1.通过什么途径，可以查看与spark兼容的组件版本？2.如何获取pom文件？3.pom文件中包含了哪些信息？4.spark编译通过什么参数可以指定hadoop版本？当我们安装spark的时候，很多时候都会遇到这个问题,如何找到对应spark的各个组件的版本，找到比较标准的版本兼容信息。答案在spark源码中的pom文件。首先我们从官网下载源码。进入官网

2017-11-04 00:00:00 7464

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 spark2.2 SparkSession思考与总结1

转载 spark2.2以后版本任务调度将增加黑名单机制

原创 如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

空空如也

空空如也

原创如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】