spark
大白菜程序猿
大家好,我是大白菜程序猿,一名热衷于在数字世界中遨游的IT博主。在这个日新月异的科技时代,我坚信技术是推动社会进步的重要力量。因此,我致力于将最前沿的IT资讯、实用的技术教程、以及那些能够激发灵感的创新案例,通过我的博客和社交媒体平台,分享给每一位对科技充满热情的你。
从编程语言的深度剖析,到云计算、大数据、人工智能等前沿技术的趋势洞察,再到网络安全、项目管理等实战经验的分享,我力求内容既具广度又有深度,帮助大家构建起坚实的技术知识体系,同时也鼓励大家勇于探索未知,不断挑战自我极限。
展开
-
Spark On YARN 环境搭建
1.确保前边的环境都是否配置成功搭建环境之前先确定自己的环境是否做好1.jdk 1.8版本2.HDFS MapReduce Hadoop 3.2.1 +3.zookeeper4.python 环境 3.8+5.HADOOP_CONF_DIR6.YARN_CONF_DIR点击查看这六个的配置方法: 点击直接跳转.2.连接到YARN中bin/pysparkbin/pyspark --master yarnbin/pyspark --master yarn --deploy-mode原创 2022-09-24 16:15:33 · 783 阅读 · 0 评论 -
linux 给文件起别名
1.spark-3.2.0-bin-hadoop3.2文件夹加一个别名ln -s /usr/local/spark-3.2.0-bin-hadoop3.2 /usr/local/spark原创 2022-02-28 11:11:29 · 834 阅读 · 0 评论 -
spark map 算子测试代码
spark map 算子测试代码[root@node1 bin]# ./pyspark Python 3.8.8 (default, Apr 13 2021, 19:58:26) [GCC 7.3.0] :: Anaconda, Inc. on linuxType "help", "copyright", "credits" or "license" for more information.ll22/02/01 11:50:45 WARN NativeCodeLoader: Unable to原创 2022-02-01 12:02:09 · 1164 阅读 · 0 评论 -
弹性分布式数据集(RDD)
1.为什么需要rdd分布式计算的需求分区控制Shuffle控制数据存储\序列化\发送数据计算API一个统一的数据抽象对象,来实现上述分布式计算所需的功能,这个抽象对象就是RDD2.rdd的概念1.RDD是一个抽象分布式数据集,是一个数据描述。RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的原创 2022-01-17 21:44:33 · 1361 阅读 · 0 评论 -
spark on yarn ,Spark StandAlone HA, spark local提交任务
1.给spark on yarn提交计算圆周率的程序(base) [root@6274master spark]# bin/spark-submit --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --num-executors 3 --total-executor-cores 3 /usr/local/spark/examples/src/main/python/pi.py 10...原创 2022-01-14 12:52:36 · 563 阅读 · 0 评论 -
contOS7 Spark StandAlone HA 环境搭建
1.确定环境是否安装好搭建环境之前先确定自己的环境是否做好1.jdk 1.8版本2.HDFS MapReduce Hadoop 3.2.1 +3.zookeeper4.python 环境 3.8+点击直接查看 1,23,4操作: Hadoop jdk python 环境配置教程.2.先在spark-env.sh中, 删除: SPARK_MASTER_HOST=node1原因: 配置文件中固定master是谁, 那么就无法用到zk的动态切换master功能了.在spark-env.s原创 2022-01-13 17:09:01 · 861 阅读 · 0 评论 -
CentOS 7 查看关闭防火墙
CentOS 7.0默认使用的是firewall作为防火墙查看防火墙状态firewall-cmd --state# 停止firewallsystemctl stop firewalld.service# 禁止firewall开机启动systemctl disable firewalld.service # Centos7开放及查看端口# – 开放指定端口firewall-cmd --zone=public --add-port=1935/tcp --permanent# – 关闭指定端原创 2022-01-13 14:12:35 · 256 阅读 · 0 评论 -
在hdfs文件系统上上传文件做操文件等操作
点击直接查看操作: 点击跳转.原创 2022-01-12 20:29:22 · 2900 阅读 · 0 评论 -
执行./pyspark,./spark-shell报错拒绝链接,Error initializing SparkContext. java.net.ConnectException:
1.错误描述,执行./pyspark,./spark-shell报错拒绝链接22/01/12 03:49:27 ERROR SparkContext: Error initializing SparkContext.java.net.ConnectException: Call From 6274master/192.168.47.10 to 6274master:8020 failed on connection exception: java.net.ConnectException: Conne原创 2022-01-12 17:22:33 · 3656 阅读 · 5 评论 -
contOS7 安装Anaconda教程
获取资源加qq:2581671391.上传安装包:上传: Anaconda3-2021.05-Linux-x86_64.sh文件到Linux服务器上安装:sh ./Anaconda3-2021.05-Linux-x86_64.sh输入yes后就安装完成了.安装完成后, 退出SecureCRT 重新进来:看到这个Base开头表明安装好了.base是默认的虚拟环境.2.换国内源如果你安装好后, 没有出现base, 可以打开:/root/.bashrc这个文件, 追加如下内容:2.1原创 2022-01-11 18:59:45 · 208 阅读 · 0 评论 -
contOS7安装配置 spark全套教程,复含问题解决办法
需要安装包直接联系:qq:2581671391.下载安装sparkspark下载链接: 点击直接跳转到官网在线下载.2.传入到服务器2.1解压文件# 解压到当前文件夹tar zxvf spark-3.2.0-bin-hadoop3.2.tgz# 解压到指定的目spark录(首先创建好目录)tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz /usr/local/spark2.2给spark-3.2.0-bin-hadoop3.2文件夹加一个别名ln -原创 2022-01-11 23:03:13 · 435 阅读 · 0 评论