spark
文章平均质量分 63
spark相关
没¥开会员
这个作者很懒,什么都没留下…
展开
-
rdd算子的使用例子
rdd算子的使用例子原创 2023-11-06 08:59:08 · 66 阅读 · 0 评论 -
spark standalone HA
再启动zk (所有节点) zookeeper-3.4.6/bin/zkServer.sh start。然后启动spark (node1) spark/sbin/start-all.sh。最后启动备份节点(node2)spark/sbin/start-master.sh。先启动hdfs (node1) start-dfs.sh。配置前提:hdfs、zk、spark 可用。原创 2023-11-03 11:26:15 · 33 阅读 · 0 评论 -
spark standalone模式
log4j.rootCategory=info 改为 log4j.rootCategory=warn。核心:spark集群加hdfs。# 启动日志 (18080)原创 2023-10-30 15:33:26 · 45 阅读 · 0 评论 -
RDD(缓存|检查点|广播变量|累加器)
缓存|检查点|广播变量|累加器原创 2023-11-06 09:16:49 · 78 阅读 · 0 评论 -
rdd算子
reparation 是coalesce的一种当参数2为True一种简写coalesce 默认只能进行减少分区, 如果要增大分区, 需要将参数2设置为True, 一旦设置为True就会产生shuffle区别:1) 两个算子都是用于重分区的算子, 一个能增大也能减少, 而coalesce默认只能减少分区2) reparation默认会产生shuffle 而coalesce默认没有shuffle3) reparation 是coalesce的一种当参数2为True一种简写。原创 2023-10-20 18:29:54 · 53 阅读 · 1 评论 -
spark on yarn 环境配置
当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,设置属性告知Spark Application应用。-- 设置聚合日志在hdfs上的保存时间 -->-- 设置yarn集群的内存分配方案 -->-- 设置yarn历史服务器地址 -->-- 配置yarn主节点的位置 -->-- 关闭yarn内存检查 -->-- 开启日志聚合功能 -->原创 2023-10-20 18:30:23 · 272 阅读 · 1 评论 -
运行spark报JAVA_HOME is not set
2、找不到java环境,可能是配置了多个python 环境导致,【经检查/etc/profile有配置JAVA_HOME,可能因为优先级没访问到】,在~/.bashrc里面配置就ok了,【我初始化anaconda 是配置在bashrc的,使用的是anaconda的python解释器】1、运行spark程序时,部分python代码需要py4j转换为java代码,而远端设备找不到java环境。2、 需要在代码中添加以下内容,用于锁定远程版本 (放置在mian函数的上面)原创 2023-10-19 19:41:30 · 348 阅读 · 1 评论 -
anaconda安装
source activate pyspark_env 或者 conda activate pyspark_env。deactivate pyspark_env 或者 conda deactivate。pip install -i 镜像地址 包名。例如: 创建一个pyspark_env 虚拟环境。conda uninstall 包名。conda install 包名。2、修改配置文件/etc/profile。pip uninstall 包名。2- 如何创建一个新的虚拟环境。3- 如何进入虚拟环境(激活)原创 2023-10-17 17:09:22 · 32 阅读 · 0 评论