辉哥大数据-CSDN博客

原创 Spark大数据开发与应用案例(视频教学版)（十三）--第八章

第8章 Spark内存管理机制

2025-06-11 16:19:51 479

原创 Spark大数据开发与应用案例(视频教学版)（十二）--第七章

闭包是一个函数，这个函数能够访问和操作在其定义时捕获的外部变量的值。在Spark中，当你将一个函数作为参数传递给Spark的操作（如map、filter等）时，Spark会捕获这个函数及其所依赖的所有外部变量，并形成一个闭包。这个闭包随后会被序列化，并发送到集群中的工作节点上执行。

2025-05-30 16:16:51 694

原创 Spark大数据开发与应用案例(视频教学版)（十一）--第六章

Spark大数据开发与应用案例(视频教学版)

2025-04-15 16:32:14 761

原创 Spark大数据开发与应用案例(视频教学版)（十）--第五章

本章将全面解析RDD的Shuffle机制，从Shuffle的概念与历史演进出发，深入探讨其验证及复用性。随后，我们将详细剖析HashShuffleManager与SortShuffleManager的工作原理及其优化策略，为读者揭示Spark分布式计算的核心奥秘。

2025-03-24 15:13:07 661

原创 Spark大数据开发与应用案例(视频教学版)（九）--第四章下

本章深入探索Spark的核心抽象——RDD（Resilient Distributed Dataset，弹性分布式数据集）。从RDD的基本概念出发，逐步解析其血缘关系、依赖类型及多种算子（包括Transformation、Action及特殊算子）。同时，通过模拟自定义RDD与任务执行原理图解，让读者掌握Spark的实战技巧。

2025-03-14 16:18:59 773

原创 Spark大数据开发与应用案例(视频教学版)（八）--第四章上

本章深入探索Spark的核心抽象——RDD（弹性分布式数据集）。从RDD的基本概念出发，逐步解析其血缘关系、依赖类型及多种算子（包括Transformation、Action及特殊算子）。同时，通过模拟自定义RDD与任务执行原理图解，让读者掌握Spark的实战技巧。

2025-02-22 20:46:43 938

原创 Spark大数据开发与应用案例(视频教学版)（七）--第三章下

本章将引领您探索Scala基础编程，随后指导您如何在Spark中创建项目，并深入编写Spark程序。通过一系列学习，您将掌握大数据处理的关键技能。最后，本章小结将帮助您巩固所学，为后续学习打下坚实基础。本章主要知识点：Scala基础编程Spark创建项目Spark程序编写

2025-01-31 10:07:54 1011

原创 Spark大数据开发与应用案例(视频教学版)（六）--第三章上

本章将引领您探索Scala基础编程，随后指导您如何在Spark中创建项目，并深入编写Spark程序。通过一系列学习，您将掌握大数据处理的关键技能。最后，本章小结将帮助您巩固所学，为后续学习打下坚实基础。

2025-01-16 13:58:45 1066

原创 Spark大数据开发与应用案例(视频教学版)（五）--第二章下

本章将讲解Spark的概念及其特点、运行模式、执行流程以及一些常用的专有名词，帮助读者对Spark形成一个大致的印象，为后续的学习打下基础。

2025-01-11 21:20:19 789

原创 Spark大数据开发与应用案例(视频教学版)（四）--第二章上

本章主要知识点：1)VM虚拟机安装2)Ubuntu 22.04系统安装3)Ubuntu 22.04网络配置4)Ubuntu 22.04环境配置5)zookeeper 安装6)Hadoop 安装7)Spark安装8)集群和代码下载

2025-01-04 11:38:59 1442 1

原创 Spark大数据开发与应用案例(视频教学版)（三）--第一章下

本章主要知识点：1)Spark概念及其特点2)Spark技术生态系统3)Spark运行模式4)Spark执行流程5)Spark专有名词

2025-01-01 11:04:26 1288 1

原创 Spark大数据开发与应用案例(视频教学版)（二）--第一章上

1）Spark概念及其特点2）Spark技术生态系统3）Spark运行模式4）Spark执行流程5）Spark专有名词

2024-12-29 21:53:12 1126 1

原创 Spark大数据开发与应用案例(视频教学版)（一）--文前

Spark大数据开发与应用案例(视频教学版)（一）--文前

2024-12-26 22:51:24 1119 2

原创我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

致青春赶在儿子1岁生日之际，赶在我30岁告别之际，我撰写《Hadoop+Spark生态系统操作与实战指南》一书，作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页，我借【此书】记录下我的青春，我借【清华大学出版社】将我青春永远留在【清华大学】。我的新书《Hadoop+Spark生态系统操作与实战指南》，清华大学出版社，已经在京东、天猫、当当

2017-08-07 20:22:59 8207 11

原创辉哥大数据做活动--免费送书3本

《DeepSeek大模型高性能核心技术与多模态融合开发》

2025-04-15 09:39:25 365

原创 DeepSeek的介绍

综上所述，DeepSeek是一家专注于开发先进大语言模型和相关技术的创新型科技公司。其产品在多项测试中表现出色，且训练成本远低于行业平均水平。然而，DeepSeek也面临着多元化功能不足和交互体验差异等挑战。未来，随着技术的不断进步和市场的深入拓展，DeepSeek有望在人工智能领域取得更加显著的成就。

2025-01-31 10:33:48 1441

原创程序员的日常生活

在数字时代，程序员不仅是技术的塑造者，更是连接现实与虚拟世界的桥梁。他们的生活，如同一首由代码、梦想与日常琐事交织而成的交响曲，既充满了挑战与激情，也不乏平凡与温馨。本文将深入探索程序员的生活，从工作、学习、休闲到人际关系，全方位展现这一群体的独特风貌。

2025-01-11 21:30:47 900

原创 Ubuntu 20.04安装gitlab

一、Ubuntu系统平台查看二、Ubuntu系统软件源更新三、Ubuntu系统安装依赖四、Ubuntu系统下载安装包五、Ubuntu系统安装gitlab六、Ubuntu系统系统配置七、gitlab重新启动系统ERROR01ERROR02

2023-05-09 09:51:11 336

原创安卓相关错误解决

将文件内容修改：gradle.properties。

2023-04-19 11:37:09 574

原创数据仓库——如何量化评价一个数据仓库的好坏？

数据仓库——如何量化评价一个数据仓库的好坏

2023-01-29 11:05:37 952

原创 3天学会撰写软件发明专利——2.专利的价值

1)学生对专利的价值2)个人对专利的价值3)企业对专利的价值

2022-12-24 10:39:20 322

原创数据团队总监生存指南

新晋总监生存指南开篇之总监二三事新晋总监生存指南二——建立指标新晋总监生存指南三——OKR实践新晋总监生存指南四——项目执行指南新晋总监生存指南五——人才运营机制新晋总监生存指南终章——构建团队信息通道...

2022-08-22 10:13:38 346

/** * 检验表达式中的括号是否成对出现 */ def isMatch(rules: String): Boolean = { // 括号中文转英文字符 val str = rules.replaceAll("（", "(").replaceAll("）", ")") // 设置栈存储容器 val brackets = new util.HashMap[Character, Character] // key值为：')' ，value值...

2022-01-17 17:33:43 460

原创用户画像理论和实战

用户画像

2021-11-02 19:17:43 567

原创 SQL行转列、列转行

目录一、整理测试数据SQL行转列、列转行这个主题还是比较常见的，行转列主要适用于对数据作聚合统计，如统计某类目的商品在某个时间区间的销售情况。列转行问题同样也很常见。一、整理测试数据create table wyc_test( id int(32) not null auto_increment, name varchar(80) default null, date date d...

2021-07-27 19:52:39 475

原创程序员必知的几种软件架构模式

程序员必知的几种软件架构模式前序分层架构模式多层模式管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构（MVC）事件驱动架构微服务架构前序架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而，很多开发者至今还对各种软件架构模式之间的差别搞不清，甚至对其所知甚少。大体上，主要有下面这几种架构模式：分层架构管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构事

2020-10-27 14:11:45 4653 7

原创程序员正确看代码的方式

正确的学习方法不仅能够让你事半功倍，也能够让你更加接近真理。初学一个工程的源代码，往往让初学者手足无措。下面的方法希望为初学者带来启示和便利。这个学习方式是基于编译环境和语言比较熟悉的基础上。最重要的是你要确定你要阅读的源代码是一份好代码。因为阅读代码就像阅读书籍。好代码让你终生受益，坏代码会给你留下阴影。一．先把源代码安装起来编译起来，结合它的文档和手册，熟悉其功能和它的应用方式。如果遇到的是英文

2020-09-25 23:57:56 14499 3

原创 Druid的端口-接口-日志大全

在介绍之前，先列一下Druid各部分的端口号(在代码Main.java中)：角色端口Coordinator8081Historical8083Broker8082Realtime8084Overlord8090MiddleManager8091Router8888下面是管理命令：查询某个Meta Datasource下所有的segments：GET http://<coordinator>:8081/druid

2020-09-23 11:16:49 3493

原创 Presto的坑记录

问题1 Java版本:Unrecognized VM option 'ExitOnOutOfMemoryError'Did you mean 'OnOutOfMemoryError=<value>'?Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.回答：Presto requires Java 8 Update 151

2020-09-15 15:33:10 4805 1

转载如何搭建AI数据中台？

AI中台是一个用来构建大规模智能服务的基础设施，对企业需要的算法模型提供了分步构建和全生命周期管理的服务，让企业可以将自己的业务不断下沉为一个个算法模型，以达到复用、组合创新、规模化构建智能服务的目的。什么是AI数据中台？在以往，企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时，需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体，也就是

2020-09-12 15:57:56 2603 1

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

sqoop的数据导入

2019-01-16

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

SqlServer驱动包

SqlServer驱动包，代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

TA关注的人

spring boot+mybatis整合

hadoop-Apache2.7.3+Spark2.0集群搭建

Hive的Udf函数进行数据脱敏

SpringBoot的mvc三层以及增删改查页面

MacBook Pro的快捷键

crawlerBank.py

新概念2知识点.pdf

sqoop的数据导入

Mysql教程所有数据.zip

SqlServer驱动包

SparkSql技术

Lucene实战(第2版).pdf

silentwolf

stable-diffusion-webui启动报错

微博对一条微博进行评论API

调用JEECG微博发帖API异常

mac版本idea中路径颜色设置