自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 简单的认识并使用DataX

​ DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

2025-08-29 21:01:23 797

原创 DataWeraHouse大数据学习的基础与深入

​ 模型是对现实世界中某个对象特征的模拟和抽象。例如,一张地图、建筑设计沙盘或精致的航模飞机都可以视为具体的模型。数据模型:数据模型也是一种模型,主要对现实世界中的数据特征进行抽象。数据模型用于描述数据、组织数据和操作数据。​ E-R 模型,全称为实体关系模型或实体关系模式图(ERD,Entity-Relationship Model,E-R Model,简称 ER 模型)。

2025-08-26 09:09:42 584

原创 带你明白建立数据仓库时拉链表的妙处

特性Type 1 (重写覆盖)Type 2 (新增行)Type 3 (新增列)历史保留不保留任何历史完整保留所有历史部分保留(通常只保留上一次)实现复杂度简单复杂中等存储空间小大(记录数增长)中等(列增长)分析能力只能基于当前状态分析,历史分析会失真可准确进行历史时间点分析可分析当前和上一次的状态常见应用错误修正、无业务价值的变化客户属性、产品属性、部门划分等绝大多数场景偶尔需要对比本次和上次值的场景拉链表是一种设计表结构的方法,旨在高效、准确地记录数据在不同时间点上的所有状态变化。

2025-08-22 19:58:20 1276

原创 一篇文章,带你玩转SparkCore

​ 是专门为大规模数据处理而设计的快速通用的计算引擎,是一种类似的通用并行计算框架。​ Spark 还支持自定义累加器,只需要继承 AccumulatorV2 即可。// 建立连接// 初始化自定义累加器// 注册累加器// 创建 RDD// 自定义累加器 实现 WordCount// 获取累加器// 关闭连接if (!/*** 自定义累加器*/// 定义可变 Map 存放 Word 和 Count(这个就是自定义的累加器)// 累加器是否为零(空)// 拷贝新的累加器。

2025-08-12 20:23:06 1515 2

原创 带你一站式了解Scala的隐式

​ 隐式(implicit)是一种强大的语言特性,它允许编译器在需要时自动插入某些转换、参数或类实例。隐式机制是 Scala 实现类型类(type classes)、减少样板代码和创建领域特定语言(DSL)的重要工具。

2025-08-09 09:14:24 686

原创 有关Scala的模式匹配

一个模式匹配包含了一系列备选项,每个备选项都开始于关键字 case。且每个备选项都包含了一个模式及一到多个表达式。箭头符号 => 隔开了模式和表达式(类似于Java的swith,但是功能强大的多)

2025-08-06 18:47:11 570

原创 Linux文件系统的软硬链接有何不同

1,是原始文件的另一个目录条目(指向同一个inode),与原始文件共享相同的物理数据块。1,是一个独立的文件,内容中存储的是原始文件的路径(类似于Windows的快捷方式)。删除原始文件后,软链接会变成“悬空链接”(Dangling Link),指向无效路径。删除原始文件后,硬链接仍能访问数据(因为数据块未被释放,直到所有硬链接被删除)。文件大小为存储的路径字符串的长度(例如ls -l中显示的数字)。不能跨文件系统(因为inode是文件系统内部分配的)。有独立的inode,与原始文件的inode不同。

2025-07-29 20:03:22 413

原创 远程连接MySql8出现报错问题:Authentication plugin ‘caching_sha2_password‘ cannot be loaded

查询了资料之后发现报错的原因是:mysql8 之前的版本中密码加密规则是mysql_native_password,而在mysql8之后,加密规则是caching_sha2_password。最近在学习大数据的时候,有与之前一直都是使用的电脑本机的数据库,现在要使用远程连接的工具,连接虚拟机的MySql出现报错。一:升级远程连接的软件,只要升级到最新的版本,向这种问题一般都不会再出现了。如图所示就是登录成功了。

2025-07-29 19:12:13 433 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除