Taerge0110
码龄4年
关注
提问 私信
  • 博客:85,997
    85,997
    总访问量
  • 73
    原创
  • 21,213
    排名
  • 630
    粉丝
  • 0
    铁粉

个人简介:一个只想认真搬砖的码农

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2020-12-28
博客简介:

Taerge0110的博客

查看详细资料
  • 原力等级
    当前等级
    4
    当前总分
    771
    当月
    20
个人成就
  • 获得826次点赞
  • 内容获得37次评论
  • 获得902次收藏
  • 代码片获得916次分享
创作历程
  • 1篇
    2025年
  • 42篇
    2024年
  • 30篇
    2023年
成就勋章
TA的专栏
  • 数仓
    11篇
  • 大数据
    61篇
  • 算法
    6篇
  • DataWorks
    5篇
  • SQL
    26篇
  • 语言
    21篇
  • 数据质量
    2篇
  • 其它
    1篇
  • Spark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据仓库: 10- 新技术与趋势

实时数据仓库是数据仓库技术的重要发展方向,结合了流式数据处理、高性能存储和实时分析的能力,为业务实时决策和优化提供支持。尽管在性能、复杂性和成本上存在挑战,但随着技术的成熟和工具的完善,实时数据仓库的应用场景将越来越广泛。定义云数据仓库是基于云平台的数据仓库服务,支持存储、整合和分析海量数据,通常以服务(SaaS)形式提供,无需用户管理底层硬件和基础设施。特点弹性扩展:根据业务需求动态调整存储容量和计算资源,无需前期大规模投入。按需付费:基于实际使用量(存储、计算)收费,降低闲置资源的成本。
原创
发布博客 2025.01.13 ·
1470 阅读 ·
18 点赞 ·
1 评论 ·
17 收藏

数据仓库: 9- 数据仓库数据治理

数据标准化是指通过对数据的内容、格式、命名、编码等方面设定统一标准, 以解决数据源多样化、数据冗余和数据冲突等问题, 提升数据的共享性和可用性;数据标准化是数据治理的核心, 确保数据的一致性、准确性和共享性;通过制度和实施标准, 企业可以有效降低数据管理成本, 同时为高级分析和决策提供高质量的数据支持 .
原创
发布博客 2024.12.27 ·
1844 阅读 ·
18 点赞 ·
0 评论 ·
31 收藏

钉钉机器人消息推送类型案例

通过钉钉机器人, 使用同步的方式, 推送文件, 链接, 图片等信息到钉钉群; 持续更新,欢迎交流。
原创
发布博客 2024.12.13 ·
1004 阅读 ·
11 点赞 ·
1 评论 ·
16 收藏

数据仓库: 8- 数据仓库性能优化

数据倾斜: 是指在数据分布过程中, 某些数据节点 (分区或任务) 上的数据量远远多于其它节点, 导致任务的执行时间取决于最慢的节点;某字段值过于集中 (如用户ID中大量重复值);数据分区方式导致某些分区存储了过多的数据;键值分布不均匀, 聚合或链接操作时部分键值过大;数据倾斜是数据仓库性能优化中的一个常见问题, 需要结合具体业务场景、数据分布特点以及查询模式来选择合适的解决方案;理解数据倾斜的原因、识别数据倾斜的节点, 并采取相应的措施, 可以有效提高数据仓库的查询性能 .
原创
发布博客 2024.11.29 ·
1310 阅读 ·
7 点赞 ·
0 评论 ·
27 收藏

数据仓库: 7- SQL和数据处理

复杂 SQL 查询是数据仓库中不可避免的挑战, 但我们可以通过多种优化策略来提高其性能和可维护性;选择合适的优化策略需要根据具体的业务场景、数据量、性能要求等因素总和考虑;窗口函数是数据仓库中进行数据分析的利器, 它能够帮助我们更轻松地计算各种指标、排名和趋势分析;掌握窗口函数的使用方法和优化技巧, 能够显著提高数据分析的效率和灵活性;
原创
发布博客 2024.10.28 ·
1498 阅读 ·
21 点赞 ·
4 评论 ·
12 收藏

数据仓库: 6- 数据仓库分层

清晰的数据结构: 分层结构使得数据仓库的数据组织更加清晰, 易于理解和维护;提高数据质量: 不同层次的数据经过不同的处理和校验, 可以有效提高数据质量;简化数据处理: 分层结构可以将复杂的业务逻辑分解到不同的层次, 简化数据处理流程;提高开发效率: 分层结构可以提高代码复用率, 降低开发成本, 提高开发效率;支持多种应用场景: 不同层次的数据可以满足不同业务部门和应用场景的需求;
原创
发布博客 2024.09.06 ·
1309 阅读 ·
16 点赞 ·
3 评论 ·
18 收藏

数据仓库: 4- 数据质量管理 & 5- 元数据管理

数据清洗是数据仓库数据质量管理中至关重要的一环, 直接影响到数据仓库中数据的可靠性和分析结果的准确性;通过制定合理的清洗规则、选择合适的清洗方法、使用自动化工具以及持续监控数据质量, 可以有效地提高数据质量, 为数据分析和业务决策提供高质量的数据支持 .数据一致性指数据在不同系统、表格或时间点之间保持统一和协调的程度;它确保数据的完整性、准确性和可靠性;数据一致性检查是数据仓库数据质量管理中不可或缺的一环, 它直接影响到数据仓库中数据的可靠性和分析结果的准确性;
原创
发布博客 2024.08.23 ·
1620 阅读 ·
24 点赞 ·
0 评论 ·
16 收藏

数据仓库: 3- ETL过程

数据抽取是数据仓库建设中的重要环节, 需要根据不同的数据源和业务需求选择合适的抽取方式和工具, 并采取有效的措施保证数据质量和效率, 为后续的数据处理和分析打下坚实的基础;数据转换的定义: 数据转换是将源系统中抽取的数据转化为符合目标数据仓库要求的过程;这包括数据清洗、标准化、聚合和结构化等操作;数据转换是 ETL 过程中至关重要的一步, 它直接影响到数据仓库的数据质量和分析结果的准确性;选择合适的转换方法和工具, 并遵循最佳实践, 可以有效地完成数据转换任务, 为数据分析和业务决策提供高质量的数据支持。
原创
发布博客 2024.08.16 ·
809 阅读 ·
13 点赞 ·
0 评论 ·
16 收藏

MapJoin 详细介绍

MapJoin 是大数据处理框架如 Apache Hive 中的一种优化技术, 专门用于提升联接操作 (Join Operation) 的效率;通常在处理海量数据时, 联接操作需要在两张或多张表直接匹配数据行, 这个过程可能会消耗大量的时间和资源;MapJoin 提供了一种优化方案, 通过Map 阶段完成联接操作, 减少数据传输量和计算开销, 从而加快查询速度;MapJoin 是大数据处理框架中一个非常有效的优秀技术, 特别适用于大表与小表的联接操作;
原创
发布博客 2024.08.13 ·
2719 阅读 ·
25 点赞 ·
0 评论 ·
17 收藏

数据仓库: 2- 数据建模

星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根据具体的业务需求和数据特点进行设计;一个良好的数据模型可以提高数据查询效率, 方便进行多维分析, 并支持业务决策;
原创
发布博客 2024.08.09 ·
1380 阅读 ·
7 点赞 ·
3 评论 ·
19 收藏

数据仓库: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ;​ 它可以帮助企业整合来自不同数据源的数据, 并将其转换为易于理解和分析的格式 ;
原创
发布博客 2024.08.02 ·
1093 阅读 ·
17 点赞 ·
0 评论 ·
18 收藏

Scala学习笔记20: Future 和Promise

在 Scala 中, `Future` 和 `Promise` 是用于处理异步操作的强大工具 ;它们就像一对搭档, 协同工作, 优雅地管理着那些需要花费时间的任务 .
原创
发布博客 2024.07.26 ·
665 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

Scala学习笔记19: 隐式转换和隐式参数

隐式转换和隐式参数是 Scala 中两个强大的特性, 它们可以使代码更简洁、更灵活, 但也容易造成理解上的困难 ;`隐式转换` 允许你自动将一种类型的对象转换成另一种类型的对象, 而无需显式调用转换方法 ; 例如, 你可以定义一个隐式转换, 将整数自动转换为字符串 ;`隐式参数` 则允许你在函数定义中忽略某些参数, 编译器会在调用函数时自动查找并传入这些参数 ;例如, 你可以定义一个隐式参数, 用于表示数据库连接, 并在需要访问数据库的函数中使用它 ;
原创
发布博客 2024.07.19 ·
1004 阅读 ·
5 点赞 ·
0 评论 ·
12 收藏

Scala学习笔记18: Either 类型

Either类型为 Scala 开发者提供了一种更优雅、更安全的方式来处理可能失败的操作;它鼓励开发在代码中显式地处理成功和失败两种情况, 从而提高代码的健壮性和可读性 .
原创
发布博客 2024.07.17 ·
487 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

Scala学习笔记17: Try与异常处理

Try类型是 Scala中函数式异常处理的重要工具, 它让挖煤可以用更优雅、更简洁的方式来处理异常, 使代码更易于理解和维护 .
原创
发布博客 2024.07.15 ·
831 阅读 ·
18 点赞 ·
0 评论 ·
6 收藏

Scala学习笔记16: 注解

Scala 中的注解 (Annotations) 是一种元编程工具, 用于向编译器、运行时或其他工具提供元数据 ;注解可以应用于各种程序结构, 包括类、对象、方法、字段、参数等 ;下面是对Scala注解的详细介绍, 包括常见的注解、如何定义自定义注解, 以及使用注解的一些示例 ;
原创
发布博客 2024.07.12 ·
1187 阅读 ·
19 点赞 ·
4 评论 ·
16 收藏

Scala学习笔记15: 文件和正则表达式

Scala中的正则表达式功能强大, 能够满足各种文本匹配和处理的需求;希望以上介绍能够帮助你更好的理解Scala中的正则表达式 .
原创
发布博客 2024.07.05 ·
1122 阅读 ·
28 点赞 ·
3 评论 ·
25 收藏

[数据质量]手动实现 阿里云DataWorks 的数据质量监控告警功能

使用Python 实现对数据库表的监控告警功能, 并将告警信息通过钉钉机器人发送到钉钉群实现DataWorks中数据质量的基本功能, 当然 DW的数据质量的规则类型很多, 用起来比较方便, 这里目前简单实现了其中三个规则类型的功能, 仅供参考, 欢迎交流;初次使用Python, 请多指教使用工具: MaxCompute代码可以直接copy, 可开箱即用(部分内容, 如分区层级, 可根据你自己公司的数据表进行调整); 规则内容如有不懂, 欢迎咨询讨论;
原创
发布博客 2024.06.24 ·
991 阅读 ·
23 点赞 ·
0 评论 ·
8 收藏

Scala学习笔记14: 模式匹配和样式类

在Scala中, 模式匹配和样例类是强大的功能, 用于处理复杂的数据结构和逻辑 ;模式匹配是一种功能强大的机制, 可以根据数据的结构和属性进行匹配和处理 ;样例类是一种特殊的类, 用于简化模式匹配和不可变性 .
原创
发布博客 2024.06.21 ·
1013 阅读 ·
28 点赞 ·
0 评论 ·
10 收藏

Scala学习笔记13: 集合

在Scala中, 集合的化简 (reduce) 、折叠(fold) 和扫描(scan) 是常用的函数式编程操作, 用于对集合中的元素进行聚合计算;Scala提供了丰富的集合类库, 包括可变和不可变的集合类型, 以及各种高阶函数和操作符, 方便对集合进行操作和转换;不可变集合的操作不会改变原始集合, 而返回一个新的不可变集合, 这有助于避免副作用和提高代码的可维护性 .Scala的数组与Java的数组类似, 但Scala的数组可以是泛型的, 运行存储不同类型的元素;
原创
发布博客 2024.06.19 ·
849 阅读 ·
11 点赞 ·
2 评论 ·
12 收藏
加载更多