spark
文章平均质量分 90
cllblogs
这个作者很懒,什么都没留下…
展开
-
Spark Kryo serialization
准备测试数据 [hadoop@hadoop000 logs]$ ls -lh 总用量 150M -rw-r--r--. 1 root root 150M 10月 22 00:29 access.log 测试 rdd.persist(StorageLevel.MEMORY_ONLY) 缓存占存储空间为 590.9MB ,接近原始数据大小的4倍(具体倍数不好说,但是起码2倍以上) rdd.p...原创 2019-10-23 13:00:23 · 231 阅读 · 0 评论 -
Spark on Yarn-cluster 和 Yarn-client 区别
Yarn-cluster 和 Yarn-client 区别 SparkContext 初始化不同,这也导致了 Driver 所在的位置不同,Yarn-cluster 的 Driver 是在集群的某一台 NodeManager 上,但是 Yarn-client 是在 Driver 所在的机器上 Driver 会和 Executors 进行通信,这也导致了 Yarn-cluster 在提交a...原创 2019-10-16 16:15:57 · 250 阅读 · 0 评论 -
spark2.4.2源码编译集成hadoop-2.6.0-cdh5.15.1
1.准备工作 1.1 组件及源码下载 组件名称 组件版本 centos centos6.4 jdk jdk-8u80-linux-x64.tar.gz maven apache-maven-3.6.1-bin.tar.gz scala scala-2.11.6.tgz hadoop Hadoop-2.6.0-cdh5.15.1-src.tar.gz ⚠️ 版本要...原创 2019-09-06 08:43:07 · 546 阅读 · 0 评论