spark
文章平均质量分 87
baigp
这个作者很懒,什么都没留下…
展开
-
MetaStore服务启动时,“Metastore contains multiple versions (3) [ version = 1.2.0, comment = ...”的解决方法。
HiveMetaStore MetaException(message:Metastore contains multiple versions (3) [ version = 1.2.0, comment = Set by MetaStore... 的处理方法原创 2022-08-06 08:48:05 · 537 阅读 · 1 评论 -
Spark集群搭建
集群规划: 节点 Spark node1 1(master) node2 1(worker) node3 1(worker) node4 1 (客户端)1、上传安装包,解压到/home/目录下;2、在原创 2017-11-30 21:39:32 · 255 阅读 · 0 评论 -
大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等(持续更新)
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口Zookeeper: 2181原创 2017-11-30 21:17:39 · 14409 阅读 · 2 评论 -
Spark资源调度与任务调度(standalone模式)
说明:本文所讲的Spark资源调度与任务调度是standalone模式下的调度,其它模式下的调度(如Yarn、Mesos等)暂不涉及。我们结合具体的应用案例——WordCount.scala 来详细说明Spark是如何进行资源调度与任务调度的。WordCount.scala代码:package com.beijing.scala.spark.operatorimport org.apache原创 2017-06-12 15:12:32 · 4234 阅读 · 1 评论 -
reduceByKey和groupByKey区别与用法
转载原文地址:https://blog.csdn.net/weixin_41804049/article/details/80373741在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对...转载 2019-06-10 22:37:37 · 11507 阅读 · 0 评论