![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 93
ASN_forever
这个作者很懒,什么都没留下…
展开
-
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。Inpu转载 2021-01-19 10:37:44 · 807 阅读 · 0 评论 -
hadoop完全分布式基础上搭建spark集群
此部分内容是建立在前面的hadoop集群搭建基础之上的,具体参考:centos7+hadoop2.8.0+VMware搭建完全分布式集群,但是要注意的是因为后面重新搭建了一次hadoop,用的jdk版本改成了jdk1.8.0_171,所以在安装时要注意统一! 步骤 一、在master上安装Spark依赖的Scala并配置环境变量二、在master上下载和解压缩Spark并配置相...原创 2018-07-08 13:03:13 · 2866 阅读 · 0 评论 -
spark在windows下的环境搭建(转)
https://blog.csdn.net/u011513853/article/details/52865076转载 2018-07-15 22:57:56 · 232 阅读 · 0 评论 -
转载一篇讲解rdd和dataframe分区的博文
转载自董可伦的文章:https://blog.csdn.net/dkl12/article/details/81663018#commentBox转载 2018-12-04 12:58:51 · 214 阅读 · 0 评论 -
spark启动pyspark shell时报错socket.error: [Errno 99] Cannot assign requested address
这是个socket请求错误,意思是说不能为其分配请求的地址。 分析原因:socket发起connect请求的时候会随机分配一个端口给你。这个分配的端口是有范围的,记录在:/proc/sys/net/ipv4/ip_local_port_range可以看到我的端口范围是32768到60999。当你用多个进程发起过多的请求的时候,端口用完了就会报这个错误。解决办法:要解...原创 2018-12-01 14:33:53 · 1631 阅读 · 0 评论 -
spark2.1.0配置windows本地基于java语言的Eclipse开发环境
前面配置过在windows本地通过Eclipse开发hadoop程序然后打成jar包在Linux集群中运行的经历,因此一方面是基于同样的需求,另一方面是因为我是spark小白,想通过这种方式快速了解和学习spark开发。(注意:此文配置的是基于java语言开发spark的,如果要用scala开发,则需要在Eclipse中添加scala插件并做进一步配置。如果要用python开发,则最好用pyc...原创 2018-12-03 11:25:27 · 1203 阅读 · 3 评论 -
windows本地Eclipse开发spark程序打包到集群运行
windows环境下基于Eclipse开发spark的配置可以看上一篇博文:https://blog.csdn.net/ASN_forever/article/details/84747317本篇主要记录如何在windows本地用Eclipse开发spark程序以及如何打包到Linux集群去运行。 首先在Eclipse中创建一个maven项目,并配置好pom(具体细节看上一篇配置博文)...原创 2018-12-03 17:01:06 · 1342 阅读 · 0 评论