- 博客(8)
- 收藏
- 关注
原创 MapReduce 实战详解:学生成绩统计案例
Shuffle 英文译为「洗牌」,是 MapReduce 中最重要、最核心、最复杂的阶段,是唯一连接 Map 阶段和 Reduce 阶段的桥梁与纽带,也是 MapReduce 框架的灵魂所在。该阶段的核心作用是:对 Map 阶段输出的所有零散、碎片化的键值对,进行一系列的整理、排序、分组处理,最终保证「相同 Key 的所有 Value 值会被聚合为一个集合,并传递到同一个 Reduce 任务中处理」,为 Reduce 阶段的聚合计算提供数据基础。
2026-01-12 14:43:48
873
原创 MapReduce 实战详解:学生成绩统计案例
MapReduce 是一种分布式并行计算的编程模型与框架,由 Google 提出核心思想,Apache Hadoop 进行开源实现,是大数据离线批量处理的核心技术。它专门解决海量数据(TB/PB 级别)的高效处理问题,将复杂的分布式计算任务拆解为两个核心阶段,降低大数据开发的门槛。MapReduce 的核心是「分而治之」,通过Map拆分处理和Reduce聚合计算完成海量数据处理,Shuffle 是连接两者的核心桥梁;
2026-01-12 14:16:07
643
原创 大数据数据分析与应用课程实践:KNN分类模型在儿童龋齿预测中的深度探索
在信息爆炸的当下,大数据如同蕴藏无尽宝藏的矿山,等待着我们去挖掘和利用。大数据数据分析与应用课程为我们提供了开启这座矿山的钥匙,在一次课程实践中,我以儿童健康数据为切入点,借助,运用模型对儿童龋齿情况进行预测,以下便是这次实践的详细历程与深刻感悟。
2025-12-30 09:49:46
993
原创 数据可视化实战:使用 ECharts 绘制堆叠面积图(Stacked Area Chart)
在大数据时代,如何将复杂的数据以直观、清晰的方式呈现给用户,是数据分析与展示的核心任务之一。数据可视化正是实现这一目标的关键技术。今天我们将通过一个完整的 HTML + ECharts 示例,深入讲解如何使用ECharts—— 一款由百度开源的强大图表库,来绘制一个漂亮的堆叠面积图(Stacked Area Chart)。堆叠面积图是一种用于显示多个数据系列随时间或类别变化趋势的图表类型。它将每个数据系列“堆叠”在一起,形成一个连续的区域,从而可以观察总体趋势以及各组成部分对整体的贡献。
2025-12-29 10:12:30
561
原创 MapReduce 概念与实战深度解析
通过这个 Web 访问日志排序的案例,我们对 MapReduce 的工作原理和实际应用有了更深入的理解。在这个阶段,Mapper 类将原始的 Web 访问日志数据逐行读取,并按照特定的规则将其映射为中间键值对。这些中间键值对为后续的排序和归约操作提供了基础数据。Reducer 类接收 Mapper 输出的中间键值对,并根据键的相同性对值进行聚合操作。在这个案例中,Reducer 将具有相同键的值进行遍历,并将值与键交换位置后输出,从而实现了对 Web 访问日志的排序。
2025-12-05 08:26:43
977
原创 MapReduce 概念与实战深度解析
通过这个 Web 访问日志排序的案例,我们深入理解了 MapReduce 的工作原理和实战应用。将原始日志数据映射为中间键值对,为后续的排序和归约做准备。对中间键值对进行归约处理,生成最终的排序结果。配置和启动 MapReduce 作业,监控作业执行进度,确保作业顺利完成。MapReduce 模型通过“分而治之”的思想,将复杂任务分解为简单的 Map 和 Reduce 任务,实现了大规模数据集的并行处理,提高了数据处理效率。
2025-11-25 10:21:01
749
原创 深入学习 Series 序列对象:从基础到实战的全面心得
学习 Pandas 的 Series 序列对象,让我掌握了一维带标签数据的高效处理方式。从创建(表格提取 / 手动构造 ),到用 .values/.index/.size 快速了解数据,再到算术运算、astype/value_counts 等方法灵活处理数值与分类数据,sort_values/round 规整数据,.str 操作字符串,还有 agg 实现复杂加工、结合布尔索引精准筛选。它是数据分析基石,帮我建立数据思维,高效挖掘数据价值,为后续深入分析筑牢基础 。
2025-06-24 10:29:57
692
原创 学习Python的心得体会
通过本学期的学习,我对Python有了基础的掌握,例如变量、数据类型、条件语句、循环语句和函数等,这些都是最基础的东西,我可以运用简单的语法变现代码了。Python作为一种解释型语言,代码简洁且易于理解,没有复杂的语法和大括号,这使得编程过程更加直观和简单。例如,Python的函数不仅可以返回一个结果,还可以返回多个结果,这使得代码更加灵活和可重用。:Python有一个庞大且活跃的开发者社区,提供了大量的开源库和框架,开发者可以很方便地找到所需的资源和帮助。:可以调用C/C++的代码,增强性能和功能。
2024-12-18 09:43:04
486
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅