- 博客(161)
- 资源 (4)
- 收藏
- 关注
原创 Redis分布式缓存
本文介绍了Redis的持久化方案和主从同步机制。主要内容包括: Redis持久化: RDB持久化:通过快照保存数据,支持手动触发和自动触发,采用fork子进程方式实现,但存在数据丢失风险。 AOF持久化:记录所有写命令,提供三种同步策略,支持文件重写优化,数据安全性更高但文件较大。 主从同步: 全量同步:首次连接时master将所有数据传输给slave,通过Replication ID和offset标识数据状态。 增量同步:后续只同步新增数据,基于repl_baklog环形缓冲区实现。 对比: RDB适合备
2025-09-16 20:39:46
991
4
原创 Flume 日志采集工具【万字详解】
Flume大数据日志采集工具解析 本文介绍了Apache Flume在大数据生态中的定位、架构原理及实际应用。Flume作为一款分布式日志采集工具,采用事件驱动模型实现高效可靠的数据传输,其核心架构围绕Source-Channel-Sink三大组件构建数据流水线。文章详细对比了Flume与Sqoop、Logstash、SeaTunnel等工具的差异,指出Flume在实时日志采集场景的优势,同时也提到其已停止维护,正被SeaTunnel等新兴工具替代。内容涵盖Flume事件机制、多级代理架构、企业级配置优化等
2025-09-16 09:26:20
2120
11
原创 大数据电商流量分析项目实战:可视化 & 数据分析(九)
文章摘要 本文介绍了大数据电商项目实战课程的完整学习路径,重点讲解第9天课程"可视化与数据分析"的核心内容。课程使用FineBI商业智能工具进行数据可视化展示,详细演示了软件安装部署流程、Hive连接驱动配置方法,以及插件安装步骤。通过10天的系统学习,学员将掌握从数据采集(Flume)、存储(Hadoop)、处理(Spark)到分析可视化(FineBI)的全链路大数据技能,最终完成可落地的电商数据分析项目。课程注重实战,结合企业真实场景,帮助学员快速提升大数据项目经验。
2025-09-13 08:21:06
926
10
原创 大数据电商流量分析项目实战:Spark 计算 & 指标优化(七)
本文介绍了一个大数据电商实战项目,主要内容包括: 项目概述:这是一门针对Java开发者的大数据实战课程,涵盖Hadoop、Hive、Spark等核心技术,通过电商流量分析案例帮助学员掌握数据处理全流程。 课程安排:10天系统学习计划,包括Hadoop环境搭建、Hive数据仓库、Spark计算、Flume采集、指标计算等核心内容,最终完成数据可视化展示。 技术重点: 数据清洗:从ODS层过滤无效数据存入DWD层 数据处理:对DWD层数据进行优化转换,存入DWS层 时间处理:拆分时间戳为日期和小时字段 设备信息
2025-09-13 08:11:28
1011
16
原创 大数据电商流量分析项目实战:数据入仓 & 指标计算(六)
本文介绍了一门大数据电商实战课程,重点涵盖Hadoop、Hive、Spark、Flume等技术栈的搭建与应用。课程从基础概念到项目落地,通过10天模块化学习(含环境搭建、数据采集、ETL处理、指标计算等),帮助学员掌握离线数据处理全流程。特别提供了Hive的JSON解析库配置方法,并分享了自动化运维脚本(如ZK/Hadoop集群一键启停)以提升效率。课程强调实战能力培养,最终通过FineBI可视化展示和项目答辩完成闭环学习。
2025-09-13 08:03:26
972
原创 大数据电商流量分析项目实战:Flume 数据采集及ETL入仓(五)
本文介绍了一门大数据电商实战课程,重点讲解如何使用Flume进行数据采集和ETL入仓。课程从大数据基础、Hadoop环境搭建到Hive数据仓库、Spark SQL计算等环节循序渐进,涵盖完整的数据处理流程。Flume作为核心采集工具,其架构由Source、Channel和Sink三部分组成,能够实现高可靠、高吞吐的日志数据传输。文章详细说明了Flume的安装配置步骤,包括环境变量设置、依赖包调整等,为后续的日志采集和数据处理奠定基础。该课程适合具备Java基础、希望掌握大数据实战技能的开发者,通过项目实践快
2025-09-13 07:56:41
1930
原创 大数据电商流量分析项目实战:Hive 数据仓库(三)
本文介绍了大数据电商实战项目的课程安排,重点讲解了Hive数据仓库的安装与配置。课程采用"实战拆解+技术落地"的方式,涵盖Hadoop、Hive、Spark SQL、Flume等核心技术,从数据采集到可视化分析全链路实践。Day3重点学习Hive的安装步骤,包括环境变量配置、MySQL元数据存储设置等核心操作,帮助学员掌握将结构化数据映射为数据库表并进行SQL查询的能力。课程强调实战性,适合希望提升大数据处理能力的开发者。
2025-09-12 10:55:25
1262
2
原创 大数据电商流量分析项目实战:Hadoop初认识+ HA环境搭建(二)
本文介绍了大数据实战课程《Hadoop高可用集群搭建》的核心内容。课程采用"实战拆解+技术落地"方式,帮助学员从零构建电商大数据分析能力。重点内容包括:Hadoop三大组件(HDFS、MapReduce、YARN)原理、高可用集群环境搭建、核心配置文件修改(hadoop-env.sh、core-site.xml等)以及数据存储测试。通过10天系统学习,学员将掌握离线数据处理全流程,包括Flume日志采集、Hive数仓建模、Spark指标计算等企业级技能,最终完成可落地的电商数据分析项目。
2025-09-10 15:21:48
2130
12
原创 Java教程:JavaWeb ---JDBC
JavaWeb-JDBC快速入门与API详解 本文介绍了JDBC(Java Database Connectivity)的基本概念和快速入门方法。JDBC是Java操作关系型数据库的标准API,由数据库厂商提供具体实现。文章包含以下核心内容: JDBC概述:解释JDBC作为Java操作数据库的统一接口,其本质是sun公司制定的标准,各数据库厂商提供驱动实现。 快速入门步骤: 导入驱动jar包 注册驱动(Class.forName) 获取连接(DriverManager) 定义和执行SQL语句 处理结果并释放
2025-07-12 14:22:13
861
原创 Java教程:JavaWeb ---MySQL高级
JavaWeb MySQL高级教程摘要 本教程主要讲解MySQL数据库的高级应用,重点包括: 约束机制:详细介绍了非空约束(NOT NULL)、唯一约束(UNIQUE)、主键约束(PRIMARY KEY)、检查约束(CHECK)、默认约束(DEFAULT)和外键约束(FOREIGN KEY)的使用方法,并通过员工表示例演示了如何添加和验证各类约束。 表关系与建表原则:讲解如何建立表之间的关系及遵循的建表原则。 多表查询操作:重点掌握多表联合查询的技巧和方法。 事务操作:介绍数据库事务的基本概念和操作方法。
2025-07-11 17:36:07
1499
6
原创 Java教程:【程序员之间的沟通技巧入门】入门
《程序员高效沟通技巧指南》摘要 程序员在开发和学习过程中常会遇到问题,高效沟通是快速解决问题的关键。本文提出三点核心沟通技巧:1.使用专业术语但要通俗易懂(如"可变位置参数"而非"小括号里带星的参数");2.准确具体地描述问题(提供异常信息、代码行号等);3.准备完整分析材料(包括前后端代码截图、异常日志、运行环境等)。良好沟通需考虑对方理解成本,通过专业表述、清晰描述和完整资料让问题一目了然,这些技巧对日常协作和面试都有重要意义。
2025-07-08 07:59:47
1114
原创 Java教程:SE进阶【动漫美女拼图GUI】
摘要: 本文介绍了Java GUI开发中的继承概念及其应用,通过继承JFrame改进用户登录界面案例,提高代码复用性。随后引入动漫美女拼图项目,演示游戏功能(拼图、求助、重置),并说明项目结构包含窗体类和测试类。学习目标包括掌握继承优势、窗体优化及拼图游戏实现。 关键词: Java、GUI、继承、JFrame、拼图游戏
2025-07-07 07:58:15
856
1
原创 酷淘商场项目【从零到一详解】Web端
项目目标1、独立编写酷淘商场项目7个核心业务模块的用例2、根据测试流程的6个步骤能独立对所有项目实施功能测试测试环境:专门提供给测试人员使用开发环境:开发人员使用生产环境(线上环境):提供给用户预生产环境(基本小公司没有):设置和数据是一样情况一:2种情况,测试环境+生产环境;如何解决开发和测试进度冲突问题答:区分开发周和测试周;开发工作时(开发新功能)不测试,测试工作时开发不进新代码。情况二:3种情况,开发环境+测试环境+生产环境今天这篇文章就到这里了,大厦之成,非一木之材也;
2025-04-15 14:03:03
1084
原创 Java教程:SE进阶【十万字详解】(下)
使用Stream流示例代码Stream流的好处Stream流的思想Stream流的三类方法生成Stream流的方式Collection体系集合使用默认方法stream()生成流, default Stream stream()Map体系集合把Map转成Set集合,间接的生成流数组通过Arrays中的静态方法stream生成流同种数据类型的多个数据通过Stream接口的静态方法of(T… values)生成流代码
2024-11-22 11:24:04
1436
2
原创 Java教程:SE进阶【十万字详解】(中)
欢迎来到小羊的《Java教程:SE进阶》系列的学习之旅!无论你是初学者还是希望深化对Java编程语言理解的开发者,这系列教程都将为你提供系统化的知识和实用的技能,帮助你从零基础起步,逐步掌握Java编程的核心概念和技术。希望大家多多支持小羊吧!!让我们一起开启这段精彩的编程旅程,从零开始Go Go自定义异常概述当Java中提供的异常不能满足我们的需求时,我们可以自定义异常实现步骤定义异常类写继承关系提供空参构造提供带参构造代码实现异常类学生类return age;
2024-11-22 10:44:32
2119
原创 Java教程:SE进阶【十万字详解】(上)
大家好,我是程序员小羊!"面向对象和面向过程的思想对比 :面向过程 : 是一种以过程为中心的编程思想,实现功能的每一步,都是自己实现的面向对象 :是一种以对象为中心的编程思想,通过指挥对象实现具体的功能客观存在的事物皆为对象 ,所以我们也常常说万物皆对象。类的组成是由属性和行为两部分组成属性:在类中通过成员变量来体现(类中方法外的变量)行为:在类中通过成员方法来体现(和前面的方法相比去掉static关键字即可)类的定义步骤: ① 定义类 ② 编写类的成员变量 ③ 编写类的成员方法
2024-09-12 20:22:26
3591
8
原创 Java教程:入门基础【十万字详解】
欢迎来到小羊的《Java教程:入门基础》系列的学习之旅!无论你是初学者还是希望深化对Java编程语言理解的开发者,这系列教程都将为你提供系统化的知识和实用的技能,帮助你从零基础起步,逐步掌握Java编程的核心概念和技术。希望大家多多支持小羊吧!!让我们一起开启这段精彩的编程旅程,从零开始Go Go
2024-09-02 08:32:24
30246
28
原创 揭秘功能测试的秘密:缺陷管理(下)
这是一篇功能测试专栏系列《揭秘功能测试的秘密:从初学者到专家的必备指南》本系列将深入探讨了软件测试的基础知识和实用技巧,从手动测试到自动化测试工具的使用,涵盖了测试流程、测试用例设计、测试执行与报告生成等关键内容。无论你是软件测试新手,还是想要提升测试技能的开发者,这篇教程都将为你提供全面的指导,助你掌握软件测试的最佳实践,打造高质量的软件产品。后续内容大概会分三篇文章写完(上、中、下),中级会穿插一些扩展知识(软件测试需要具备的基础知识【功能测试】!!!揭秘功能测试的秘密:测试基础(上)
2024-08-18 21:12:37
1098
4
原创 揭秘功能测试的秘密:功能用例实战(中)
这是一篇功能测试专栏系列《揭秘功能测试的秘密:从初学者到专家的必备指南》本系列将深入探讨了软件测试的基础知识和实用技巧,从手动测试到自动化测试工具的使用,涵盖了测试流程、测试用例设计、测试执行与报告生成等关键内容。无论你是软件测试新手,还是想要提升测试技能的开发者,这篇教程都将为你提供全面的指导,助你掌握软件测试的最佳实践,打造高质量的软件产品。后续内容大概会分三篇文章写完(上、中、下),中级会穿插一些扩展知识(软件测试需要具备的基础知识【功能测试】!!!揭秘功能测试的秘密:测试基础(上)
2024-08-18 15:09:32
1047
10
原创 揭秘功能测试的秘密:测试基础(上)
这是一篇功能测试专栏系列《揭秘功能测试的秘密:从初学者到专家的必备指南》本系列将深入探讨了软件测试的基础知识和实用技巧,从手动测试到自动化测试工具的使用,涵盖了测试流程、测试用例设计、测试执行与报告生成等关键内容。无论你是软件测试新手,还是想要提升测试技能的开发者,这篇教程都将为你提供全面的指导,助你掌握软件测试的最佳实践,打造高质量的软件产品。后续内容大概会分三篇文章写完,中级会穿插一些扩展知识(软件测试需要具备的基础知识【功能测试】!!!
2024-08-14 17:49:33
2637
20
原创 数仓数据基线,在不借助平台下要怎么做?
本文介绍了数据基线的核心概念与实现方法。数据基线包含时间基线(关键数据需在指定时间前完成)和质量基线(数据需满足准确性要求)。在不借助平台的情况下,可通过以下步骤实现:1)定义核心表基线标准;2)任务执行前校验上游依赖;3)定时监控核心表是否达标;4)设置异常告警与重试机制。该方案灵活可控但维护成本较高,适用于无专业数据治理平台的中小团队。通过Shell脚本+Hive SQL可实现全流程监控,确保数据按时按质产出。
2025-12-19 15:01:31
802
原创 电商项目练习实操(二)
本文介绍了一门实战导向的大数据课程,面向具备Java基础但缺乏大数据经验的学员。课程围绕电商数据分析展开,涵盖Hadoop、Hive、Spark、Flume等技术栈,从数据采集到可视化的全流程实战。通过10天学习,学员将掌握大数据环境搭建、数仓建模、指标计算、自动化调度等核心技能,并完成一个可放入简历的电商数据分析项目。课程采用“理论+实操”模式,重点培养解决实际业务问题的能力。
2025-11-14 20:17:25
1064
原创 数仓练习的最佳实践扩展(一)
本文介绍了一门实战导向的大数据电商项目课程,内容涵盖Hadoop、Hive、Spark等大数据技术栈的实践应用。课程为期10天,每天聚焦一个核心模块,包括Hadoop环境搭建、Hive数据仓库构建、Spark SQL指标计算、Flume数据采集等实战内容。通过电商数据分析案例,学员将掌握从数据采集、处理到可视化的全链路技能。数据集采用Grocery Sales多表关联结构,包含销售记录、产品信息等7个关联表格,具有典型的大数据处理挑战。课程强调技术落地,旨在培养能结合业务场景的实战型大数据人才。
2025-11-14 19:58:37
1052
原创 Day09 ADS指标计算_产品域指标计算(九)扩展
本文介绍了一个大数据电商分析实战项目,重点围绕跨境电商销售与产品域的数据建模与分析展开。课程内容分为三大模块:1)搭建Hadoop高可用集群,建立稳定的大数据处理环境;2)构建Hive数据仓库,完成ODS-DWD-DWS-ADS的分层设计;3)解决跨境电商特有的多币种结算、时区转换等业务问题。 课程着重通过Spark SQL计算产品销售指标,包括产品销量和商品销售额两个核心度量,采用GROUP BY CUBE实现多维分析。代码示例展示了如何构建ADS层的产品销量立方体表,使用CUBE聚合函数计算不同维度组合
2025-11-11 13:41:33
902
原创 Day08 ADS指标计算_销售域指标计算(八)扩展
本文介绍了一个大数据电商实战项目课程,重点围绕跨境电商销售数据建模与分析。课程从三大主线展开:搭建Hadoop高可用集群,构建Hive分层数据仓库(ODS→DWD→DWS→ADS),以及解决跨境场景的多币种、时区等业务难题。学员将通过Flume日志采集、Spark SQL指标计算等技术手段,最终输出可用于经营分析的销售指标宽表和可视化看板。课程特别强调参数优化与性能调优,提供了详细的Hive和Spark配置方案,涵盖分区管理、小文件合并、连接优化等关键环节。
2025-11-11 13:40:18
746
原创 数据入仓和数据ETL(七)
本文摘要:课程聚焦大数据电商项目实战,通过"跨境电商销售与产品域"案例构建端到端数据处理体系。重点包括:1)搭建Hadoop高可用集群,掌握HDFS存储与YARN调度;2)基于Hive实现ODS-DWD-DWS-ADS分层数仓设计,运用Spark SQL计算销售指标;3)解决跨境业务痛点如多币种结算、时区差异等。课程采用"指标=模型+口径+验证"方法论,涵盖从Flume数据采集、ETL处理到FineBI可视化的全流程,产出可直接用于简历的实战成果。
2025-11-10 20:27:07
835
原创 数据入仓和数据集分析(六)
《大数据电商数据分析实战课程》摘要 本课程为9天实战项目,聚焦大数据技术在电商领域的全流程应用。课程从Hadoop高可用搭建开始,涵盖Hive数仓建模、Flume日志采集、Spark SQL指标计算等核心技术,最终实现FineBI数据可视化。项目基于《Grocery Sales Dataset》的7张业务表(509MB),包含商品、客户、订单等核心数据,重点培养学员的离线数据处理能力。通过Shell脚本定时调度、数仓分层(ODS→DWD)等企业级实践,帮助学员掌握PV/UV计算、跳出率分析等典型电商指标开发
2025-11-10 08:38:05
862
原创 Flink(用Scala版本写Word Count 出现假报错情况解决方案)假报错,一直显示红色报错
程序员小羊遇到Flink Scala代码假报错问题:IDEA显示语法错误但实际运行成功。尝试了多种方法无效,最终解决方案是将IDEA的Scala检查模式从"Built-in"切换为"Compiler"模式,彻底避免了IDE对Flink隐式转换的错误提示。该案例揭示了IDE内置检查机制在处理复杂Scala类型推断时的局限性:实时检查(Built-in)易误报,而基于实际编译结果(Compiler)更可靠但反馈稍慢。建议开发者遇到类似问题时可优先验证实际运行结果,不必过度
2025-10-31 12:28:05
961
原创 Flink状态编程之算子状态(OperatorState)
Flink算子状态摘要 Flink算子状态(Operator State)是与算子实例绑定的中间数据,用于记录处理上下文(如偏移量、缓存等)。核心特点包括状态与算子实例绑定、并行度变化时自动重分配。提供4种实现:ListState(列表存储)、UnionListState(全量复制)、BroadcastState(广播配置)和ReducingState(聚合值)。典型应用场景包括Source算子的偏移量管理、无Key聚合及广播规则更新。开发时需实现CheckpointedFunction接口,通过initi
2025-10-22 16:27:48
732
原创 大数据电商流量分析项目实战:Spark SQL 基础(四)
本文介绍了《大数据电商项目实战》课程的核心内容与学习计划。课程以"实战拆解+技术落地"为导向,通过10天系统学习,帮助学员掌握Hadoop、Hive、Spark、Flume等大数据技术在电商场景的应用。 主要内容包括:大数据基础概念、Hadoop高可用环境搭建、Hive数据仓库构建、Spark SQL核心计算、Flume日志采集、PV/UV指标计算、定时任务调度等全链路技术点。课程特色是结合电商业务痛点,从零搭建完整数据处理流程,最终产出可视化分析报告。 学习路径清晰,每天聚焦一个技术模
2025-09-12 11:06:02
1242
原创 大数据电商流量分析项目实战:Day2-1 补充Mysql和sql安装和学习
摘要 本文介绍了一门大数据电商实战课程,涵盖Hadoop、Hive、Spark等核心技术,通过10天学习掌握从数据采集到分析可视化的全流程。课程采用"理论+实操"模式,重点讲解Hadoop高可用搭建、Hive数仓构建、Spark指标计算等核心模块。同时详细演示了Linux环境下MySQL 8.0的安装步骤,包括依赖安装、mariadb卸载、rpm包安装及服务启动等操作,为后续大数据环境搭建奠定基础。课程强调实战能力培养,最终产出可直接用于简历的项目成果。
2025-09-11 14:43:48
890
原创 大数据电商流量分析项目实战:Day1-2 补充 软件安装和Zookeeper
《大数据电商项目实战课程》摘要: 本课程聚焦大数据技术在电商领域的实战应用,涵盖Hadoop、Hive、Spark等核心组件,通过10天模块化学习(环境搭建→数据采集→指标计算→可视化),带领学员完成从原始日志到分析报表的全流程。重点包括:Flume实时采集、Hive分层建模、Spark SQL指标计算(PV/UV/跳出率)、Shell定时任务及FineBI可视化。课程强调企业级实践,提供完整项目经验,适合Java基础学员快速掌握大数据全链路技能,产出可写进简历的实战成果。 (摘要严格控制在150字内,突出
2025-09-11 10:40:48
1165
原创 大数据电商流量分析项目实战:Day 1-1 Linux基础(补充)
本文介绍了大数据电商实战项目的课程内容和学习计划,涵盖Hadoop、Hive、Spark等核心技术,并详细讲解了Linux文件系统结构。课程采用“实战拆解+技术落地”方式,通过10天学习掌握大数据处理全流程,包括数据采集、存储、计算、分析和可视化。文章还提供了Linux基础知识,如内核结构、发行版特点,以及Linux二级目录的功能解析(如/bin、/etc、/home等),帮助读者快速搭建大数据学习环境。
2025-09-10 16:07:51
888
5
原创 大数据电商流量分析项目实战:从 0 到 1 掌握数据驱动业务(一)
大数据电商项目实战摘要 本项目为大数据实战课程,聚焦电商流量分析,涵盖Hadoop、Hive、Spark等核心技术栈。课程采用"理论+实践"模式,10天完成从数据采集到可视化的全流程,重点包括: 搭建Hadoop高可用环境,掌握HDFS/YARN核心原理 使用Hive构建数据仓库,实现ODS→DWD分层建模 通过Spark SQL计算PV/UV等核心指标 利用Flume实现日志实时采集与ETL入仓 自动化调度与FineBI可视化展示 课程特色在于"业务痛点→技术方案→项目落地&
2025-09-10 14:44:20
1723
原创 DataX HdfsReader 插件文档
【摘要】 本文介绍了DataX的HdfsReader插件功能,该插件支持从HDFS读取多种格式文件(text/orc/rc/seq/csv),将数据转换为DataX传输协议。支持列裁剪、常量列、递归读取、正则匹配、并发读取及多种压缩格式(SNAPPY/ZLIB等)。要求JDK1.7+,兼容Hadoop 2.7.1和Hive 1.1.1,支持Kerberos认证(需版本匹配)。配置示例展示了多线程读取ORC文件的核心参数,包括路径匹配、列类型定义、文件编码等。当前限制包括:单文件不支持分片并发、未适配HDFS
2025-08-25 20:50:48
837
1
原创 DataX HdfsWriter 插件文档
本文介绍了DataX的HdfsWriter插件,该插件支持向HDFS文件系统写入TEXTFile和ORCFile格式文件,并能与Hive表关联。文章详细说明了插件的功能特性(如支持的Hive数据类型、分区表写入限制等)、使用限制(如不支持decimal类型、需保证分隔符一致等)以及配置示例。此外还提到插件的实现原理(临时目录写入机制)和Kerberos认证支持情况,最后给出了一个完整的JSON配置样例,展示了从文本文件读取数据并写入HDFS的完整流程。
2025-08-25 20:47:19
1192
原创 数据仓库&OLTP&OLAP&维度讲解
本文介绍了数据仓库的核心概念和发展历程。主要内容包括:1)OLTP与OLAP的区别,分析型OLAP查询较慢但支持决策;2)数据仓库的定义,作为统一存储分析平台,包含Hadoop、Spark等技术组件;3)数仓发展三个阶段:传统数据库、Hadoop时代和云端数仓;4)数据建模的重要性与流程,包括概念、逻辑、物理三个层次;5)重点讲解了ER关系数据模型在OLTP领域的应用。文章系统梳理了数据仓库的理论体系和技术演进,为大数据分析提供了基础框架。
2025-08-19 17:36:35
1235
原创 Protocol Buffers(Protobuf) 详解
本文介绍了Protocol Buffers(Protobuf)的定义、特性及安装使用流程。Protobuf是一种轻量高效的结构化数据序列化工具,具有跨语言、跨平台、可扩展等优势,比XML更小更快。文章详细展示了在Linux环境下安装Protobuf的步骤,并通过电话记录示例演示了.proto文件编写、编译生成Java代码的过程。最后分析了Protobuf的优缺点:虽然具备高效简洁、向后兼容等优势,但也存在功能简单、通用性较弱等局限性。全文结合代码示例和操作命令,为开发者提供了实用的Protobuf应用指南。
2025-08-12 19:19:00
1159
原创 Spark Core 3.3.2 略讲~
摘要: Apache Spark是一个基于内存的分布式计算引擎,相比Hadoop MapReduce具有显著性能优势(快10-100倍)。其核心组件包括Spark Core(批处理)、Spark SQL、Spark Streaming等,支持多语言开发和一站式数据处理。Spark通过RDD抽象实现容错,采用DAG优化调度,关键机制包括Shuffle(Sort Shuffle为主)和动态内存管理。支持Standalone/YARN/K8s等部署模式,适用于批处理、实时计算、机器学习等场景。优化建议包括合理选择
2025-08-12 19:14:02
1028
手机自动化,日志没问题,pycharm报错
2022-10-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅