- 博客(10)
- 收藏
- 关注
原创 从入门到精通:MapReduce 分布式计算全链路实践指南
作为 Hadoop 生态的核心组件,MapReduce 专为 TB 级离线数据处理场景设计,通过将复杂任务拆解为 Map 和 Reduce 两个阶段,配合 Shuffle 阶段的高效数据流转,实现了大规模数据的并行计算。它负责接收 Client 提交的 Job,将 Job 拆解为 Map Task 和 Reduce Task,根据节点资源状况分配任务,监控 Task 执行状态(运行中、完成、失败),并在 Task 失败时进行重试调度。Shuffle 阶段的学习是本次课程的难点,也是收获最大的部分。
2025-12-26 13:35:42
485
原创 深入探索 MapReduce:从原理到实践的全面解析
一、MapReduce 概述:分布式计算的核心引擎在大数据时代,面对 TB 级甚至 PB 级的海量数据,传统的单机计算模式早已力不从心。分布式计算框架应运而生,成为处理海量数据的关键技术支撑。MapReduce 作为 Hadoop 生态系统的核心组件之一,是一种面向大规模数据集的分布式并行计算模型,其设计理念源于 “分而治之” 的经典思想,专为离线数据处理场景量身打造。MapReduce 的核心价值在于将复杂的大规模计算任务拆解为多个可并行执行的子任务,在分布式集群的多个节点上同时处理,最后将所有子任务
2025-12-26 13:01:41
444
原创 从0到1,我的数据可视化进阶之路
技术维度EChartsD3.jsFlaskjQuery核心优势开箱即用,图表丰富高度定制,无限可能轻量灵活,生态完善简化 DOM,兼容广泛学习曲线平缓(1 周可上手)陡峭(1-3 个月熟练)平缓(3 天可入门)平缓(1 天可入门)性能表现中(支持 10 万级数据)高(支持百万级数据)中(需优化处理大数据)中(避免频繁 DOM 操作)适用场景快速开发,常规图表定制化可视化,科研场景中小型数据服务,API 开发简单交互,表单处理。
2025-11-07 15:45:16
942
原创 Python数据分析
本报告围绕城市幸福指数展开了全面且深入的数据分析,旨在探究影响城市居民幸福指数的各类因素,如经济、环境、社会等方面的指标,并通过多种数据分析方法挖掘数据背后的潜在信息。通过对这些数据的研究,能够为城市的规划和发展提供有价值的参考,以提升城市居民的幸福感。最后,通过可视化展示 PCA 降维结果,以幸福指数作为颜色编码,直观地展示不同幸福指数水平的数据点在二维空间中的分布情况。分数表示模型对数据的拟合程度。通过本报告的分析,我们对城市幸福指数有了更深入的了解,为城市的发展和居民的幸福生活提供了有价值的参考。
2025-07-02 19:01:25
949
原创 Untitled3
特征工程的层次性:从原始特征到衍生特征(高压力、遗传高压力组合),再到聚类特征,体现了特征构建的递进思维。分析维度的丰富性:涵盖单因素分析、双因素交叉、多因素交互和群体分型,形成立体分析网络。可视化的叙事性:不同图表类型服务于不同分析目的,共同构建数据故事线。方法选择的严谨性:肘部法则确定聚类数、分层抽样划分数据集、多指标模型评估等,体现了科学方法论。该代码不仅是技术实现,更是数据思维的体现——通过系统性分析,将分散的因素关联起来,为脱发这一复杂健康问题提供了数据驱动的洞察。
2025-06-26 17:38:50
767
原创 【无标题】
总体而言,这段代码结构清晰、功能完整,从数据探索到建模应用形成了闭环,既满足了分析需求,又提供了实用的健康建议,是一个优秀的数据科学实践案例。:创建了"高压力"和"遗传高压力组合"两个衍生特征,前者将三分类的压力水平简化为二分类,后者捕捉了遗传与压力的交互作用,这种特征组合可能揭示更深层次的风险模式。值得注意的是,代码中虽然展示了基本EDA,但可以进一步扩展:如各特征的缺失值分布、数值特征的统计描述、类别特征的频率分布等,这些都能提供更全面的数据认知。统一处理缺失值标记,保持了数据清洗的一致性。
2025-06-26 16:38:18
852
原创 任务5.3分类
读取Medicaldataset.csv文件,该数据集包含 1319 条记录、9 个特征(如年龄、性别、心率等)和 1 个目标变量Result(分为positive和negative)。sklearn提供机器学习模型与评估工具。决策树(DecisionTreeClassifier):无需特征标准化,能自动捕捉特征间的非线性关系,在该数据集上表现极佳(F1 分数接近 0.99)。选择Gender、Age、CK - MB、Troponin作为特征变量(x),目标变量为Result_Binary(y)。
2025-06-19 21:35:32
1070
原创 Untitled20
使用雷达图展示 3 类客户的 LRFM 指标均值,直观对比各群特征,为营销策略提供依据(如针对 Cluster 2 客户推出定制化服务,唤醒 Cluster 1 客户)。读取order2021kmeans.xlsx文件,数据包含 104557 条订单记录,11 个字段,如订单金额、付款金额、渠道编号、下单时间等。导入pandas(数据处理)、numpy(数值计算)、matplotlib(绘图)等核心库,并配置中文字体显示(SimHei),避免中文乱码。按 “渠道编号” 分组计算付款总额,绘制柱状图。
2025-06-13 13:02:58
1049
原创 大数据技术专业Python课程的心得体会
通过这一学期的学习,我对Python有了更深入的了解,并在实践中体会到了它在大数据处理中的重要性。Python语言的简洁性让我印象深刻。在课程中,我们小组选择了一个实际的大数据项目,通过收集数据、清洗数据、建立模型并进行预测,我不仅巩固了所学知识,还学会了如何将理论应用到实际问题中。Python课程不仅让我掌握了一门强大的编程语言,更重要的是,它开启了我对大数据世界的认识和探索。我相信,随着技术的不断进步,Python将在大数据领域发挥越来越重要的作用,而我,也将在这个领域不断前行,探索更多的可能。
2024-12-20 09:27:36
404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅