- 博客(2550)
- 资源 (19)
- 收藏
- 关注
原创 无心剑中译约翰尼·马蒂斯《圣婴降生时》
星光刺破长夜,一声啼哭便改写了世界的语法。那婴孩不分肤色,却把眼泪译成欢笑,将仇恨转码为爱。风过林间,旧墙坍塌,玫瑰色的黎明漫过每寸焦土。我们等待的从来不是神迹,而是一个未被仇恨写入的空白灵魂——他将以赤脚丈量大地,让“苦难”成为词典里失效的词条。这愿景如今尚是幻觉,但所有值得相信的未来,都曾以婴儿的姿态降临。
2026-05-09 11:08:48
9
原创 1.6.4 掌握Scala数据结构 - 元组
本次实战以Scala元组为核心,先掌握其概念、创建(圆括号赋值/元组类)、访问(_N/productElement)、迭代(productIterator/模式匹配)及转字符串(toString/mkString)等基础操作,理解其作为轻量级不可变容器的特性。随后结合文件读取,通过“读取文本→拆分单词→映射键值对→分组求和”的流程,用元组承载单词与频次,完成词频统计,串联元组操作与集合处理,实现从理论到实践的落地,掌握函数式编程中数据聚合与处理的核心思路。
2026-05-09 11:04:52
12
原创 1.6.3 掌握Scala数据结构 - 映射
Scala映射分为不可变与可变两种:不可变映射默认属于scala.collection.immutable.Map,创建后键值对不可修改,通过updated或+操作会生成新映射;可变映射属于scala.collection.mutable.Map,支持原地修改。两者均支持contains判断键存在性及getOrElse获取值。可变映射可通过map(key) = value或+=添加/更新元素,通过-=或remove方法删除元素,后者能返回删除结果。
2026-05-08 16:15:35
148
原创 3.7 Spark任务调度
Spark任务调度的核心逻辑,在于利用有向无环图(DAG)来优化并行计算。整个流程始于用户代码构建的RDD依赖图,DAGScheduler会依据宽依赖(Shuffle)将图切分为多个Stage,窄依赖则被合并以实现流水线计算。随后,TaskScheduler将这些Stage转化为具体的任务集,并分发给Worker节点的Executor执行。这种“逻辑划分”与“物理执行”解耦的机制,通过隔离昂贵的Shuffle操作,极大地提升了分布式计算的效率与容错能力。
2026-05-08 11:10:32
43
原创 无心剑中译罗伯特·弗罗斯特《向晚散步》
暮色四合,我穿行于收割后的田野。麦茬如茅草般覆着重露,半掩了通往花园的小径。枯草间,素色鸟扑棱飞起,那声响比任何言辞都更令人怅惘。墙边孤树早已秃尽,唯有一片褐叶犹自悬垂,终因我思绪的惊扰,簌簌飘落。我并未走远,俯身拾起最后一朵紫菀——那褪尽的淡蓝,是我再次带给你的,秋的残信。
2026-05-08 10:28:57
16
原创 3.6 RDD容错机制
本次实战深入探讨了Spark的RDD容错机制与共享变量应用。容错方面,介绍了基于血统的默认恢复方式及其在长依赖链下的性能瓶颈,并重点演示了通过检查点机制将数据写入HDFS以切断血统、提升恢复效率的方法。共享变量部分,通过对比实验展示了广播变量如何将大只读数据高效分发至各节点,显著降低网络开销;同时利用累加器解决了分布式环境中普通变量无法跨节点聚合的问题,实现了Executor端数据向Driver端的安全累加。
2026-05-08 10:22:14
406
原创 3.5 RDD持久化机制
本次实战通过完整的代码示例和Web UI监控,深入讲解了Spark RDD持久化机制。首先通过WordCount案例对比了未持久化(重复计算)与持久化(缓存复用)的性能差异,验证了持久化能显著提升重复计算效率。接着详细介绍了MEMORY_ONLY、DISK_ONLY、MEMORY_AND_DISK等多种存储级别及其适用场景,强调根据内存容量和性能需求合理选择。
2026-05-07 14:18:01
244
原创 3.4 理解RDD依赖
本次实战通过代码验证了 RDD 的窄依赖与宽依赖特性。窄依赖以 map 算子为例,Spark UI 显示仅有一个 Stage,无 Shuffle 读写,且操作前后分区数(2)和元素数(5)保持不变,体现了一对一的高效流水线计算。宽依赖以 reduceByKey 为例,UI 显示作业被切分为两个 Stage,存在 Shuffle 读写数据,验证了“一对多”的重分布过程;操作后分区数虽保持为 2,但元素数由 5 减至 3,体现了聚合功能。
2026-05-07 10:04:33
248
原创 无心剑中译阿尔弗雷德·布鲁斯·道格拉斯《冬日夕照》
霜天如炉,夕照泼金。道格拉斯立于凛冽中,心却叛逃向盛夏。他恨冰雪封喉,恨冻雨如鞭,恨节日玫瑰在苍白日子里苟延残喘。这叛逃多像我们自己——身在此时此地,魂却系于别处。殊不知冬阳正以情人的凝视,将最后的热情倾注于云。所谓厌倦,不过是我们尚未学会在坚硬大地上,辨认此刻的温柔。
2026-05-06 20:18:12
114
原创 3.3 掌握RDD分区
本次实战通过学生成绩数据的自定义分区处理,深入讲解Spark RDD分区机制。创建自定义SubjectPartitioner分区器,将语文、数学、英语三科成绩按科目分配到不同分区,实现数据的精准分布控制。实战涵盖从环境搭建、依赖配置、分区器实现到数据处理的完整流程,并通过调整分区数(2、3、4)演示分区器与数据映射关系的重要性。当分区数与实际业务逻辑不匹配时(如分区数2但需处理3个科目),会引发ArrayIndexOutOfBoundsException异常,体现了分区设计需与业务逻辑保持一致的关键原则……
2026-05-06 20:08:57
156
原创 3.2 掌握RDD算子
Spark RDD算子实战涵盖转换与行动两大操作类型。转换算子如map、filter、flatMap、reduceByKey等实现数据变换,union、join、intersection等处理数据关联,均具惰性特性。行动算子如collect、count、reduce、foreach触发实际计算并将结果返回驱动程序或输出到外部系统。掌握这些算子的语义与用法,能高效处理分布式数据集,实现从基础映射过滤到复杂聚合连接的各类数据处理任务。
2026-05-06 10:42:13
136
原创 无心剑中译理查德·亨利·斯托达德《青春飞逝》
青春如白驹过隙,来去无声。我们终将在岁月中变得坚韧成熟,却总在某个不经意的黄昏,为那悄然离去的风而怅然。世间万物皆有补偿,唯青春一去不返——它化作记忆里的微光,散落在寻常巷陌与天际云霞间,提醒我们:曾经拥有的,正是此刻叹息的缘由。
2026-05-03 20:49:00
162
原创 3.1 掌握RDD的创建
在实战环节,内容涵盖从环境准备到代码落地的全过程:包括HDFS与Spark集群的启动配置,以及如何利用parallelize或makeRDD算子将内存集合(Array/List)转化为分布式数据。同时,深入讲解通过textFile算子读取本地文件或HDFS文件创建RDD的技术细节,重点剖析了本地模式与集群模式下文件路径前缀(如file://、hdfs://)的差异与规范,为后续进行复杂的数据转换与行动算子操作奠定坚实基础。
2026-05-03 20:36:50
55
原创 从墨香到云端:跨越三十年的教学“进化论”
站在2026年的节点回望,我的教学生涯仿佛一部浓缩的技术进化史。从1995年的手写备课本,到如今的云端知识库与思维导图,这三十年的跨度,不仅是工具的更迭,更是我作为一名高职教师,从“知识的搬运工”向“思维的架构师”转型的生动注脚。
2026-05-01 18:45:18
363
原创 2.4.3 集群模式运行Spark项目
本实战演示了Spark集群运行WordCount项目的完整流程。首先配置scala-maven-plugin插件解决Scala代码编译问题,利用Maven package指令生成项目JAR包并上传至集群。随后,分别采用client和cluster模式提交任务,通过配置Driver和Executor资源,将任务部署在集群内部运行。通过不同参数组合测试,验证程序对输入输出路径的处理逻辑。最终,通过Spark Web UI和HDFS结果文件,确认任务执行状态与词频统计结果,完整呈现了Spark集群应用的部署与监控
2026-05-01 18:00:36
284
原创 2.4.2 本地模式运行Spark项目
本次实战演示如何在本地模式下运行Spark项目进行词频统计。首先创建Maven项目并配置Spark 3.1.3依赖和Scala SDK,设置JDK 8环境。接着创建必要的配置文件如log4j.properties和hdfs-site.xml。在net.huawei.rdd包下创建WordCount对象,实现Spark RDD词频统计功能:读取HDFS文件,通过flatMap分割单词,map映射为键值对,reduceByKey聚合计数,最后按词频降序排列。
2026-04-28 20:47:45
161
原创 2.4.1 词频统计准备工作
词频统计可通过MapReduce、Hive SQL、Spark RDD和Spark SQL等多种方式实现。在Spark开发中,版本选择至关重要,需注意Spark内核与Scala版本的兼容性,如Spark 3.1.3配合Scala 2.12和JDK 8可确保本地运行和集群部署的一致性。实战准备包括启动HDFS和Spark集群服务,以及准备测试数据文件(words.txt)并上传至HDFS分布式存储中,为后续的词频统计分析奠定基础。
2026-04-28 20:42:54
86
原创 任务2.1.1 深度学习实战 - 数据加载
本次实战系统演示了 TensorFlow 中多种数据集的加载与处理方法。内容涵盖从 Keras 内置的 MNIST 数据集,到本地的 CSV、TFRecord、文本文件,以及复杂的图片文件夹结构。重点讲解了如何利用 tf.data.Dataset API 将原始数据(如路径、标签)转化为高效的流式输入管道,为模型训练奠定了数据基础。
2026-04-27 13:07:31
464
原创 告别Fortran 77:致敬那段硬核的编程初恋
Fortran的青春1990年南大机房里,磁带机嗡鸣,Fortran 77的规约如铁律:第七列始书代码,I-N定变量类型。青年凝视屏幕,手写牛顿迭代,用最朴素的循环雕琢逻辑。那份对精度的敬畏,对计算的执着,如青涩初恋,虽已远去,却永远镌刻在记忆深处,成为最纯粹的编程初心。
2026-04-26 16:46:01
367
原创 7.7 初探华为云
本实战旨在帮助用户快速上手华为云平台,完成从账号注册到服务器远程连接的全流程操作。首先,用户需注册华为云账号并完成实名认证与充值,为资源使用奠定基础。接着,通过控制台购买弹性云服务器(ECS),并配置安全组规则以开放必要的网络端口。随后,通过VNC登录服务器重置密码,修改SSH端口配置并关闭防火墙,以优化远程访问环境。最后,利用FinalShell工具建立SSH连接,成功登录云服务器,为后续的业务部署与运维管理做好准备。
2026-04-24 11:23:27
37
原创 7.8 云上搭建个人博客
本实战项目旨在指导用户在华为云服务器上从零开始搭建个人博客。首先,通过FinalShell远程连接服务器,利用Yum源安装Nginx、PHP(含FPM)及MariaDB数据库,构建LNMP运行环境,并配置安全组放行80端口。接着,下载并解压WordPress中文版程序至网站根目录,在数据库中创建专用用户并授权。随后,修改Nginx配置文件以支持PHP解析及WordPress伪静态规则。最后,通过Web安装向导完成博客初始化配置,成功登录后台发布文章,实现个人博客的云端部署与运行。
2026-04-24 11:14:40
166
原创 无心剑随感《修篱种菊》
算法奔流处,我辟半亩荒畦。不种稻粱,只栽菊。数学的严谨是篱,诗的空灵是花,代码的理性作土,直觉的露水养根。世人问收获,我答:花期即丰年。于功利荒原,守一方无用之用——那里灵魂发芽,不问春秋。
2026-04-24 09:55:15
237
原创 道术融合:中国现代化道路的哲学密码与未来图景
从马克思对资本主义的深刻批判,到韦伯对现代性铁笼的忧虑,再到21世纪中国与西方的现实博弈,人类对理想社会制度的探索从未停歇。中国用70多年的实践,给出了一个超越西方二元对立的答案:以社会主义之道驾驭资本主义之术,在公平与效率的辩证统一中,走出了一条独具特色的现代化道路。这不仅是对马克思主义的创造性发展,更是对人类文明新形态的生动诠释。
2026-04-22 11:10:46
496
原创 2.2.3.2 Spark集群上实操
本次Spark集群实战涵盖完整操作流程:首先启动HDFS与Spark集群(通过start-all.sh),验证各节点进程正常;接着访问WebUI(端口8080/8081)监控集群状态。使用spark-shell交互式环境执行词频统计(WordCount)任务,通过RDD API处理HDFS数据并查看作业执行情况。随后利用spark-submit工具分别以client和cluster模式提交SparkPi示例程序,对比不同部署模式差异,通过WebUI跟踪应用生命周期。
2026-04-22 10:11:50
388
原创 3.2.1.3 Linux基本操作 - 用户组操作
本次实战系统演练了Linux用户组的核心操作。首先,使用groupadd、groupmod和groupdel命令完成了用户组的创建、修改与删除。其次,通过useradd和usermod命令,重点实践了将用户添加到组的方法,并清晰区分了覆盖附加组的-G参数与追加附加组的-aG参数的不同效果。最后,利用gpasswd -d命令实现了从组中移除特定用户。整个流程涵盖了用户组生命周期的管理以及用户与组关系的灵活配置,是权限管理的基础。
2026-04-21 17:00:39
264
原创 西洋哲学的“思”与佛法的“证”:从映像到实体的跨越
从“思”到“证”,是从“映像”到“实体”的跨越,是从“意识分别”到“现量亲证”的觉醒。西洋哲学以理性为翼,在思想的天国中构建了宏伟的体系,却始终未能落地于生命的实相;佛法则以实践为舟,在禅定的深海中打捞起本自具足的真如,让生命在与实体的直接相遇中,获得真正的自由与觉悟。这或许正是东西方智慧最深刻的分野:一个在“思”中追求真理,一个在“证”中成为真理。
2026-04-20 16:45:33
315
原创 无心剑中译释云空《禅、道、佛与哲学》
要理解禅,你不用思辨的努力;你非得深深地静心。静心是什么?静心是从头脑跳到无头脑,从思想跳到无思想。头脑意味着思考,无头脑意味着纯粹的觉知。只是保持觉知。勃拉,只在那时,你才能理解禅 —— 通过经验,而不是通过任何知性的努力。
2026-04-20 15:10:25
373
原创 无心剑中译狄金森《灵魂择其伴》
灵魂如月,独悬夜空,择一星而伴,余光皆隐。她关门,不是冷漠,是保全完整的自我。风叩门,帝握钥,皆不能动她分毫。人群如潮,她只取一滴,凝成永恒。于是我学会,在喧嚣中为自己静默,在万千目光里守住那一人、一心、一世界。
2026-04-20 15:01:33
158
原创 殊途同归抑或道术为二:南怀瑾思想与西方哲学的比较与省思
南怀瑾思想与西方哲学如同两条奔流的大河,它们在源头处(对宇宙人生根本问题的关切)有涓涓细流汇合,但在流淌的过程中,却因地理环境(文化背景、思维方式)的不同,形成了各自独特的河道和风景。西方哲学以其严密的逻辑和系统的理论见长,而南怀瑾所代表的东方智慧则更强调身心合一的实践与内在的直接体悟。
2026-04-20 10:30:01
373
原创 3.2.1.2 Linux基本操作 - 用户操作
Linux用户管理实战涵盖增删改查四大操作:使用useradd创建用户(指定家目录-d、用户ID-u、密码-p、注释-c),通过/etc/passwd等四文件验证;用su实现用户切换(#代表root,$代表普通用户);借助usermod修改用户属性(配合-m迁移主目录);通过userdel删除用户(-r删除关联文件,-f强制删除)。整个流程围绕/etc/passwd、/etc/shadow、/etc/group、/etc/gshadow四个核心文件展开,体现了Linux系统用户管理的安全性和灵活性。
2026-04-14 09:54:08
210
原创 2.2.3.1 搭建Spark集群
本次实战演示如何搭建Spark独立集群,采用经典的主从架构。内容涵盖两种提交方式:客户端模式(驱动程序在本地运行)和集群模式(驱动程序在集群节点上运行)。搭建过程包括前置条件准备(JDK、Hadoop、Hive配置)、下载解压Spark安装包、配置环境变量和spark-env.sh文件(设置JAVA_HOME、SPARK_MASTER_HOST、SPARK_MASTER_PORT等参数)、编辑workers文件指定集群节点,以及通过scp命令将Spark分发到各个从节点。
2026-04-13 16:55:56
54
原创 瞬间与永恒:微积分的哲学思辨
微积分之所以伟大,不仅在于它解决了物理和工程难题,更在于它提供了一种全新的世界观。它让我们看到,变化与不变、过程与结果、局部与整体,本就是同一个世界的两面。当我们用微积分的眼光看世界,世界便不再混沌,而是充满了秩序与逻辑的美感。
2026-04-10 17:33:02
233
原创 1.6.2 掌握Scala数据结构 - 列表
本次实战深入讲解了Scala中不可变列表与可变列表的核心操作。首先,详细演示了不可变列表的创建与元素添加,重点强调了其不可变特性——任何添加或合并操作(如::、++)都会生成新列表而不改变原列表。接着,介绍了可变列表ListBuffer的使用,包括元素的动态添加、插入、移除以及列表的合并与排序。最后,通过学生信息二维列表的创建与遍历,以及列表统计等实例,展示了如何在实际场景中高效处理集合数据。
2026-04-02 11:38:59
92
原创 2.2.2.3 Spark实战:词频统计
本次实战涵盖了Spark词频统计(WordCount)的两种主流实现方式。首先,利用Scala在spark-shell中完成从读取文件、flatMap分词、map映射到reduceByKey聚合的完整流程,并实现结果的降序排序。其次,针对Spark 3.3.2版本的需求,详细演示了Python 3.7.7的源码编译安装过程,包括依赖库配置、环境变量设置及验证。最后,在PySpark环境中复现了相同的词频统计逻辑,通过Lambda表达式完成RDD转换与聚合,对比展示了两种语言在大数据处理上的异同与应用。
2026-04-01 10:12:20
329
原创 2.1 初识Spark
本节内容系统介绍了Apache Spark的核心架构与发展历程。Spark作为统一的大数据处理引擎,基于内存计算模型,具备极高的处理速度与扩展性。其核心组件包括用于结构化数据处理的Spark SQL、实时流计算的Spark Streaming、机器学习库MLlib及图计算框架GraphX,实现了多场景下的统一计算。Spark打破了Hadoop的基准纪录,支持Scala、Python等多种语言,广泛应用于交互式分析、机器学习及实时数据处理等场景,是大数据计算领域的主流技术。
2026-04-01 10:06:56
112
原创 2.2.2.2 使用Spark单机版环境
本次实战深入探索Spark单机版环境的核心功能。首先运行SparkPi示例程序计算圆周率,验证集群计算能力;随后启动spark-shell进入交互式环境,完成等差数列求和、九九乘法表打印等基础任务。重点通过Scala代码操作RDD,演示了从文本文件和集合创建RDD的方法,实践了filter转化操作筛选数据,以及first、collect、foreach、saveAsTextFile等行动操作获取和保存结果,全面展示了Spark的数据处理流程和RDD编程模型。
2026-04-01 09:50:11
220
原创 2.2.2.1 搭建Spark单机版环境
本次实战旨在Linux环境下完成Spark单机版环境的搭建。首先确保JDK已正确安装,随后获取Spark安装包并上传至服务器指定目录。接着,将安装包解压至系统路径,并通过修改配置文件设置环境变量,使系统能够识别Spark命令。最后,通过验证命令检查安装版本,确认环境配置无误,为后续进行Spark大数据处理应用的开发与运行奠定坚实基础。
2026-04-01 09:47:05
86
原创 1.6.1 掌握Scala数据结构 - 数组
本次实战系统讲解了Scala数组的核心操作,涵盖定长数组与变长数组。定长数组需初始化时指定长度或元素,类型推断严格,遍历支持传统for、增强for及foreach算子,常用方法如sum、max、sorted等不改变原数组。变长数组(ArrayBuffer)支持动态增删,通过+=、append添加元素,remove、-=删除元素,insert插入元素(索引越界会报错,等于长度时等效于追加),合并可用++=或appendAll。
2026-03-31 17:08:16
93
原创 代码与匠心:程序人生的诗意栖居
在世俗的眼光中,程序员往往被描绘成与冰冷机器为伍、与枯燥逻辑相伴的刻板形象。然而,当你真正走进一个编程爱好者的内心世界,会发现那一方屏幕背后,流淌着与写文章、搞创作无异的热血与诗意。程序人生,实则是一场关于义理与词章、功能与美学、创造与完善的漫长修行。
2026-03-29 10:07:07
863
原创 1.1.2 Windows上安装Scala
本次实战旨在Windows环境下完成Scala编程环境的搭建与基础验证。首先,需从官网下载Scala 2.12.15的MSI安装包,将其安装至指定目录(如C:\Program Files (x86)\scala),并配置SCALA_HOME环境变量及Path路径,确保命令行能识别Scala指令。环境配置完成后,需验证Java(建议JDK 11以下)与Scala版本,确认安装成功。
2026-03-27 11:06:25
77
基于Spring Boot + MyBatis + Docker的用户管理系统实战源码
2026-01-03
Java程序设计任务驱动-2025.xmind
2025-12-14
Hive大数据处理技术2025.xmind
2025-12-14
NumPy - Vectors, Matrices and Arrays
2025-12-12
Spring Boot综合项目实战 - 西蒙购物网(源码+数据库脚本)
2025-10-10
西蒙购物网是基于 Jakarta EE 的 Java Web 综合实训项目:源码+文档+数据库脚本
2025-10-10
【云计算与容器技术】基于openEuler的Docker CE 26.1.3安装实践:国产系统下容器环境部署与验证全流程解析
2025-10-10
【大数据技术】基于MySQL的Hive本地模式安装配置:元数据管理与HDFS数仓部署方案设计
2025-10-10
【云计算与大数据】云上集群搭建及远程管理:基于实训云平台的大数据环境部署与Hadoop服务操作
2025-10-10
【数据库技术】MySQL8.0.35安装配置指南:Windows环境下完整部署与CSV数据导入操作手册
2025-10-10
第二阶段实训:基于媒体库音乐播放器V1.0
2018-02-09
第三阶段实训项目:基于网络乐库音乐播放器V1.0
2018-02-09
采用多种方式实现词频统计
2018-02-09
学生信息管理系统(MySQL版)V1.0源码.rar
2021-01-08
学生信息管理系统(MySQL版)V1.0.rar
2019-08-21
VB版学生成绩管理系统V1.0源码.rar
2021-01-08
贪吃蛇游戏V1.0源码_贪吃蛇游戏源代码
2021-01-08
基于网络乐库音乐播放器V1.0源码.rar
2021-01-10
基于媒体库音乐播放器V1.0源码.rar
2021-01-10
MSMusicPlayerV1.0.rar
2019-08-21
boot_thymeleaf_demo.rar
2019-08-21
boostrap_demo.rar
2019-08-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅