- 博客(17)
- 收藏
- 关注
原创 亿级数据处理:Spark读写MySQL极致优化指南(附代码实战)
option("connectTimeout", "5000") # 5秒超时。.mode("append") \ # 可选模式。方法 2:Scala (Spark Shell):避免在代码中硬编码密码,使用 Spark 的。方法 1:PySpark (Python)确认驱动类名(MySQL 8.x 使用。:将 JAR 包放入 Spark 的。二、读取 MySQL 数据。三、写入数据到 MySQL。PySpark 写入示例。(推荐 8.x 版本)覆盖表(清空原有数据)Scala 写入示例。
2025-06-16 23:27:23
1144
原创 大数据必学!Hadoop+Spark 集群搭建全流程
sudo hostnamectl set-hostname master # 主节点设为master,从节点设为slave1/slave2。jps # 主节点应有 NameNode, ResourceManager;从节点应有 DataNode, NodeManager。-- 副本数,根据从节点数量调整 -->jps # 主节点应有 Master;ssh-copy-id master # 主节点自身。ssh-keygen -t rsa # 一直回车。
2025-05-27 15:22:35
774
原创 “新手必练!10道Spark RDD高频考题+手写答案,避开初学陷阱”
print(sorted_rdd.collect()) # 输出: [9, 8, 5, 2, 1]# 输出: [('a', 1), ('a', 2), ('b', 1), ('b', 2)]print("偶数的数量:", even_counter.value) # 输出: 2。题目 9:广播变量(Broadcast Variable)# 输出: [('A', 4), ('B', 2)]题目 6:分组聚合(GroupByKey)题目 1:创建RDD并计算元素平方。题目 4:计算平均值(键值对操作)
2025-05-27 14:52:59
1021
原创 [特殊字符] “大数据开发必备:Ubuntu虚拟机PyCharm与Spark联动的环境配置秘籍”
5. 配置环境,比如设置Python解释器,可能需要链接到之前安装的Python3和PySpark。6. 验证安装,运行PyCharm,创建测试项目,运行PySpark代码检查是否正常。2. 下载PyCharm的tar.gz包,从官网选择Linux版本。SPARK_HOME=/opt/spark # 假设Spark已安装在此路径。中安装 PyCharm 并集成 Spark 环境的详细教程。3. 解压到合适的目录,比如/opt。# 确保已安装Java(Spark依赖)打开 PyCharm,创建新项目(如。
2025-05-27 14:22:28
913
原创 [特殊字符] “让数据飞起来!在Ubuntu虚拟机中轻松部署PySpark开发环境”
config("spark.driver.memory", "1g") \ # 分配1GB内存。.master("local[2]") \ # 使用2个CPU核心。:使用国内镜像下载Spark(如清华镜像源)。:确保Java版本为8/11,可通过。)和对应Hadoop版本(如。# 应显示Spark版本。,选择最新稳定版(如。
2025-05-27 13:54:51
892
原创 「[特殊字符] 零基础也能懂!Spark+Ubuntu虚拟机安装Jupyter Notebook手把手教学」
c.NotebookApp.port = 8888 # 指定端口(默认8888)c.NotebookApp.open_browser = False # 关闭自动打开浏览器。c.NotebookApp.ip = '0.0.0.0' # 允许所有IP访问。:检查虚拟机防火墙和网络设置(如NAT/桥接模式)。输入步骤4中设置的密码即可访问。2.安装Python和pip。1.更新系统(可选择)3.安装Jupyter。5.安装Spark内核。参数安装到用户目录。
2025-05-19 23:01:53
540
原创 [特殊字符] 零基础搞定!Ubuntu系统Java安装终极指南
路径正确,并在PySpark脚本或环境变量中生效。OpenJDK 8(推荐PySpark兼容版本)OpenJDK 11(长期支持版本)OpenJDK 17(最新稳定版本)一、安装Java的详细步骤。一、安装Java的详细步骤。复制输出中的路径(例如。🚀1. 更新软件包列表。验证JAVA_HOME。三、完全卸载Java。
2025-05-06 15:20:51
536
原创 【手把手教学】Spark虚拟机极速搭建:Ubuntu环境下Kafka安装到实战测试全流程
检查2181(Zookeeper)、9092(Kafka)端口占用。:Ubuntu 20.04 LTS(运行于Spark虚拟机):使用spark用户操作(需sudo权限)2. 启动消费者(历史消息拉取)验证Zookeeper服务状态。1. 启动Zookeeper。六、网络连通性测试(扩展)二、Kafka安装与配置。2. 启动Kafka服务。五、生产消费全流程测试。:JDK 8+已安装。
2025-04-22 13:37:17
468
原创 解决ping命令DNS解析失败问题
可能的原因包括(DNS服务器配置错误、网络连接问题、DNS服务未运行,或者防火墙设置阻止了DNS请求。检查网络连通性→检查DNS配置→测试DNS解析→更换DNS服务器→检查防火墙→检查hosts文件→重启服务或系统→联系ISP。如果以上步骤无效,可能是 ISP 的 DNS 服务器故障,或网络管理员限制了 DNS 请求。# 添加 DNS 服务器。# 检查默认 DNS 解析。# 尝试 ping Google 的公共 DNS IP。【如果为空或配置错误,需手动设置 DNS:】# 临时生效(重启后可能失效)
2025-04-02 19:59:33
2929
原创 Ubuntu APT更新失败解决方法
如果无法连通,说明网络有问题,需检查网卡/IP配置。如果网络正常但无法解析域名,继续下一步。2. 检查并更换DNS设置。5. 检查防火墙或代理设置。6. 清除APT缓存并重试。:等待一段时间后重试。1. 检查网络连接。4. 检查系统时间。
2025-04-01 15:45:16
2627
原创 Ubuntu安装MySQL步骤指南
ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '你的密码';GRANT ALL PRIVILEGES ON *.* TO '用户名'@'%' WITH GRANT OPTION;CREATE USER '用户名'@'%' IDENTIFIED BY '密码';首先打开虚拟机,进入Ubuntu虚拟机,先启动:start-all.sh。若看到 Active: active (running)退出后重新登录即可。
2025-04-01 15:24:51
802
原创 虚拟机Ubuntu无法上网排查指南
sudo apt install ntpdate && sudo ntpdate pool.ntp.org 【# 手动同步时间】ip a # 或 【ifconfig(需安装net-tools)】ping www.google.com 【# 测试DNS解析】【# 如果使用Netplan(Ubuntu 18.04+)】:虚拟机作为独立设备接入局域网(需配置与主机同网段的IP)。:虚拟机共享主机IP,无需额外配置(默认推荐)。ping <网关IP> 【# 测试网关可达性】
2025-03-25 14:30:06
6210
2
原创 RDD排序与收集方法使用指南
sc.parallelize([1, 2, 3, A, 5]).sortBy(lambda x:x,False).collect()#降序排列。rdd = sc.parallelize(a, 3) #创建分区数,3表示重新分配CPU个数。rdd.glom()collect() #返回每个分区中的数据元素。RDD的转换算子(map, flatMap, filter, sortBy, distinct, reduceByKey等)求最大最小累加和平均值。
2025-03-11 22:25:11
891
原创 手把手教你玩转Spark RDD的常用操作
rdd.map(lambda x: x*2) # 输出 [2,4,6]rdd.filter(lambda x: x > 2) # 输出 [3](1)使用 parallelize()方法从普通集合元素创建 RDD。(2)在其中输入下面的代码,可以查看 RDD 类包含的功能方法。(MEMORY_ONLY, MEMORY_AND_DISK等)核心特性:分区、不可变性、容错(Lineage血缘)父RDD的分区被多个子分区依赖(触发Shuffle)
2025-03-09 20:58:01
853
原创 零基础学习Spark大数据环境搭建
sudo ln -sf /usr/bin/python3.6 /usr/bin/python 回车。gedit a.txt (创建或者打开a.txt文件)sudo ufw disable(关闭防火墙)将hadoop,jdk,spark文件传入到里面。输入:spark@ubuntu:~$(在这里输入)spark(回车)(在这里输入)spark(回车)vi或者vim(启动vi)2.Ubuntu基本设置。(避免版本冲突,先卸载)1.JDK的安装配置。输入spark 回车。
2025-03-07 00:11:52
949
大数据处理平台Spark:从零开始的环境搭建及应用实践指南
2025-03-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅