spark
文章平均质量分 90
cllblogs
这个作者很懒,什么都没留下…
展开
-
Spark Kryo serialization
准备测试数据[hadoop@hadoop000 logs]$ ls -lh总用量 150M-rw-r--r--. 1 root root 150M 10月 22 00:29 access.log测试rdd.persist(StorageLevel.MEMORY_ONLY)缓存占存储空间为 590.9MB ,接近原始数据大小的4倍(具体倍数不好说,但是起码2倍以上)rdd.p...原创 2019-10-23 13:00:23 · 244 阅读 · 0 评论 -
Spark on Yarn-cluster 和 Yarn-client 区别
Yarn-cluster 和 Yarn-client 区别SparkContext 初始化不同,这也导致了 Driver 所在的位置不同,Yarn-cluster 的 Driver 是在集群的某一台 NodeManager 上,但是 Yarn-client 是在 Driver 所在的机器上Driver 会和 Executors 进行通信,这也导致了 Yarn-cluster 在提交a...原创 2019-10-16 16:15:57 · 256 阅读 · 0 评论 -
spark2.4.2源码编译集成hadoop-2.6.0-cdh5.15.1
1.准备工作1.1 组件及源码下载组件名称组件版本centoscentos6.4jdkjdk-8u80-linux-x64.tar.gzmavenapache-maven-3.6.1-bin.tar.gzscalascala-2.11.6.tgzhadoopHadoop-2.6.0-cdh5.15.1-src.tar.gz⚠️ 版本要...原创 2019-09-06 08:43:07 · 561 阅读 · 0 评论