- 博客(3)
- 收藏
- 关注
转载 spark2.2 SparkSession思考与总结1
问题导读1.你认为为何出现SparkSession?2.SparkSession如何创建RDD?3.SparkSession通过那个类来实例化?4.bulider包含哪些函数?为何出现SparkSession对于spark1.x的版本,我们最常用的是rdd,如果我们想使用DataFrame,则需要通过rdd转换。随着dataframe和dataset使用的越来越多,所以spark就寻找了新的切入点
2017-11-26 00:00:00 1892
转载 spark2.2以后版本任务调度将增加黑名单机制
问题导读1.spark如何开启黑名单机制?2.哪些条件将将executors列入黑名单?3.整个节点被列入黑名单,executors如何处理?spark2.2中在任务调度中,增加了黑名单机制,提高了资源分配的效率。不同条件分别会将executors和整个节点加入黑名单。但是加入黑名单,也是有时间限制的,我们可以自定义时间,超过了这个时间,将会被资源管理器回收。对于如
2017-11-20 00:00:00 1533
原创 如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
问题导读1.通过什么途径,可以查看与spark兼容的组件版本?2.如何获取pom文件?3.pom文件中包含了哪些信息?4.spark编译通过什么参数可以指定hadoop版本?当我们安装spark的时候,很多时候都会遇到这个问题,如何找到对应spark的各个组件的版本,找到比较标准的版本兼容信息。答案在spark源码中的pom文件。首先我们从官网下载源码。进入官网
2017-11-04 00:00:00 7464
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人