自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(193)
  • 收藏
  • 关注

原创 实时流处理框架(如Flink、Spark Streaming)

Flink提供了多种时间语义(Time Semantics),包括事件时间(Event Time)、处理时间(Processing Time)和摄取时间(Ingestion Time)。Checkpoint会定期将系统的状态(包括算子的状态)持久化到外部存储(如HDFS、S3等),以便在发生故障时能够从最近的Checkpoint恢复状态,继续处理数据流。在发生故障时,可以从最近的Checkpoint恢复状态,继续处理数据流,从而避免数据丢失或不一致的情况发生。

2024-09-21 15:08:26 178

原创 flink的窗口

滚动窗口和滑动窗口适用于需要按时间间隔进行数据统计和分析的场景,而会话窗口则更适用于用户行为分析等动态数据窗口的场景。Flink的窗口是处理无界流数据的一种重要机制,它将无限的流数据切割成有限的、可管理的部分,以便进行聚合、计算和分析。全局窗口在流处理中是一个特殊的情况,窗口大小和滑动步长都是无穷大。定义:窗口是Flink在处理流数据时用于划分数据流的逻辑概念,它将无限的流数据切割成有限的、可管理的部分。特点:适用于用户行为分析等场景,窗口的长度和位置是动态的,取决于数据元素到达的时间模式。

2024-09-12 14:38:36 770

原创 双流join

Session Window Join:数据根据会话窗口进行分组,会话窗口是根据数据的间隙来定义的,例如,可以使用 EventTimeSessionWindows.withGap(Time.milliseconds(1)) 来定义会话间隙为 1 毫秒的会话窗口。在实际应用中,选择哪种方式取决于具体的业务需求和数据特性。在 Flink 中实现双流 join 主要有两种方式:基于窗口的 join(Window Join)和基于时间区间的 join(Interval Join)。

2024-09-12 14:31:43 582

原创 大数据面试刷题

综上所述,以上这些网站都是大数据面试刷题的好选择。求职者可以根据自己的实际情况和需求选择合适的网站进行学习和练习。同时,也要注意保持学习的持续性和系统性,不断提升自己的综合素质和竞争力。

2024-08-09 09:29:15 469

转载 数据域VS主题域

分析对象就是决策、分析时重点关注的东西,这个东西是非常主观的,在不同的企业,或者企业不同的发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。数据仓库时一套方法论,但并不是一个“定理”,可能不会有完全符合公司实际业务的“公式”,我们需要学习这些方法论,然后结合自己公司实际的业务场景来实现,只要能有序的把数据管控起来,同时又能高效的帮助数据分析,实现业务价值就好了,不必一味的追求“行业标准”,毕竟适合自己的才是最好的。主题域:从数据分析应用的角度进行划分的,通常是联系较为紧密的数据主题的集合。

2024-08-05 15:07:59 192

原创 AB测试介绍

AB测试,又称A/B测试,是一种统计学上的假设检验方法。它将数据分为两个或多个组,通常是对照组(Control Group,A组)和实验组(Test Group,B组),通过控制单一变量来比较不同策略或功能的效果,从而判断哪组的表现更好。

2024-07-19 10:32:18 756

转载 git操作篇

hotfix分支也叫维护分支或者热修复分支,用于快速给生产线上的产品打补丁用(比如客户在生产线上发现了紧急bug需要马上修复),这是唯一从master分支中去fork出来的分支,修复完成后,将修改的要合并到develop分支,master分支应该用新的版本号打好tag。到了发布的时候,专门为发布准备了一个分支就是release分支,它从develop中fork出来,这么做的目的是一个团队可以在完善当前的发布版本的同时,另一个团队可以继续开发下一个版本。可以理解成在master分支上处理的临时发布。

2024-07-16 10:10:41 54

原创 王阳明龙场悟道

王阳明(王守仁)的“龙场悟道”是中国明代哲学史上的一次重要事件,标志着阳明心学的形成和发展。

2024-07-15 13:09:18 286

原创 MD5(CONCAT_WS(‘-‘ ,CAST (sls.cinvcode AS STRING ), CAST (sls.autoid AS STRING) )) 这个逻辑的含义

例如,如果你想要为每个商品和自动编号的组合生成一个唯一的哈希值,这个表达式就可以做到这一点。函数名中的 "WS" 代表 "With Separator",这意味着你可以指定一个分隔符来连接多个字符串。函数通常用于生成一个字符串的 MD5 哈希值,这是一种广泛使用的哈希函数,可以产生一个 128 位(16 字节)的哈希值,通常用一个 32 位的十六进制字符串表示。:最后,使用 MD5 函数对连接后的字符串进行哈希处理,生成一个 MD5 哈希值。不是字符串类型,这一步是必要的,以确保可以进行字符串操作。

2024-07-09 09:47:29 246

转载 数仓开发流程和数据校验标准

a.应用上-底层表使用率(覆盖率):分析师和业务方使用底层数据的占比情况,数仓的APP和DM层应用表是对业务结果的提炼,所以这个指标越小越好。b.执行上-JOB运行趋势:延迟率,失败率,资源消耗数,执行平均时长,资源等待时长,SLA满足率(分常规队列和核心队列)需求提出-需求对接/确认(业务诉求及拆解)-需求评估(明确数据抓手及指标口径)-需求开发-数据校验-需求交付-结束。c.质量上-故障数:由应用数据引起的故障(核心任务的延迟、失败等)a.后续可以通过写一些自动化校验的脚本来提高数据校验的效率。

2024-07-08 08:55:31 80

原创 个人的时间管理和工作效率

这种习惯非常有助于提升个人的时间管理和工作效率。通过每天早上和晚上的反思与规划,你可以更好地掌控自己的日程,确保重要任务得到妥善处理,同时也能减少因遗忘或拖延而导致的压力和焦虑。1. 明确当天目标:2. 制定计划:3. 激发动力:1. 检查工作完成情况:2. 总结经验:3. 规划第二天:4. 放松身心:通过坚持这种早上思考和晚上反思的习惯,你可以逐渐形成一个高效、有序的工作和生活方式。这不仅有助于你更好地完成工作任务,还能提升你的自我认知和自我管理能力。

2024-07-03 17:23:46 215

转载 据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解

另一方面,平台是不带有业务特征性质的,主要汇集其他人的能力,整合成平台的能力,相对来说是静态的,而中台是动态变化的本身,需要通过数据驱动的方式来滋养业务,不断训练调整业务模型和业务算法提供的能力,提供给其他系统和平台集成的能力。在数据服务层通过数据服务化的Data API的方式,打通数据平台和前台的业务层对接,结合算法,把前台业务的分析需求和交易需求直接对接到中台来,通过数据中台处理和逻辑运算,然后在反向赋能业务,真正做到意义上的『一切业务数据化,一切数据业务化』。

2024-07-02 10:46:14 498

原创 中午吃完饭然后走路30分钟的好处

中午吃完饭然后走路30分钟的好处:

2024-06-24 11:08:42 399

原创 90天瘦30斤瘦身计划

在开始任何减肥计划之前,强烈建议咨询医生或营养师以确保该计划适合您的健康状况。减肥过快可能对身体健康产生负面影响,因此请确保您的方法既安全又可持续。请记住,健康和安全是首要考虑的因素。遵循这个计划时,请确保您的身体能够适应并感到舒适。如有任何不适,请立即停止并寻求医疗建议。在90天内健康地减轻30斤体重。

2024-06-24 09:37:14 376

原创 工作改进:先想好怎么做,然后再执行

领导的反馈非常宝贵,它指出了你在工作中的一个重要方面可以改进的地方。通过实施这些建议,你将能够更好地规划和管理工作,提高工作效率和质量,从而赢得领导的更多认可和信任。

2024-06-20 18:31:27 281

原创 如何减少工作中出现的问题和提高效率

这不仅可以帮助你避免在未来重复相同的错误,还可以作为学习和改进的依据。通过不断学习和实践,你可以找到最适合自己的工作方式和处理事情的方法,提高工作效率和质量。:通过定期回顾问题集,你可以识别出常见的问题类型和趋势,这有助于你提前采取预防措施,减少未来出现问题的可能性。随着时间的推移,你可以看到自己的进步,以及仍然需要改进的方面。:在求职或晋升时,问题集可以作为你个人能力和经验的证明,展示你的成长和解决问题的能力。:你可以将问题集分享给同事或团队成员,帮助他们避免相同的错误,并共同学习和进步。

2024-06-20 09:40:42 1003

原创 如何减少sql出现问题

在编写 SQL 时遇到小问题是很常见的,尤其是当你对 SQL 语言、数据库设计或业务需求不够熟悉时。

2024-06-20 09:34:40 480

原创 starrocks进行数据的删除

另外,根据搜索结果,StarRocks 在某些版本中可能不支持在 DELETE 语句的 WHERE 条件中使用函数,例如 `DATE(time)`。如果您的 `dt` 字段是日期时间类型,并且您需要使用函数来构造删除条件,请确保您的 StarRocks 版本支持这种用法,或者您可能需要使用其他方式来构造删除条件。最后,如果您在执行 DELETE 操作时遇到任何问题,您可以查看 StarRocks 的官方文档或社区论坛获取帮助。在这里,`p1` 是您想要删除数据的分区名称,您需要替换为实际的分区名称。

2024-06-19 17:18:45 739

原创 ALTER TABLE 语句来添加字段或修改列的注释。

你可以使用外部工具或脚本来修改数据源的表结构,并在 Flink SQL 中查询修改后的表。如果你只是想为 Flink SQL 查询中的字段添加注释或描述,以便其他开发人员更容易地理解你的查询,你可以考虑在查询的文档或注释中添加这些信息。如果你的 Flink 任务与元数据存储(如 Catalog)集成,你可以使用 Catalog 的 API 或管理工具来添加或修改表的字段和注释。如果你的 Flink 任务连接到的是支持 DDL 语句的数据源(如 Hive),你可以使用相应的 DDL 语句来添加字段或注释。

2024-06-17 14:07:41 700

原创 Cannot discover a connector using option: ‘connector‘=‘starrocks‘

这通常意味着你虽然可能已经在项目的依赖管理中添加了 StarRocks 的 Flink 连接器依赖,但是 Flink 运行时并没有找到这个依赖,或者该依赖并不包含你需要的连接器工厂。如果你是在集群上运行 Flink 任务,确保你已经将 StarRocks Flink 连接器依赖的 JAR 包部署到了 Flink 的 lib 目录下,或者通过 Flink 的。如果你使用的是 Maven,你可以通过。在添加了新的依赖之后,确保你重新构建了你的项目,以便 Maven 或 SBT 能够下载并安装新的依赖。

2024-06-14 08:29:15 508

原创 StarRocks中,这些配置项是表属性的一部分

是一种流行的压缩算法,它提供了良好的压缩比和较快的压缩/解压缩速度。: 这个属性指定了数据的副本数量。在StarRocks中,为了数据的高可用性,每个数据分片(tablet)可以有多个副本。设置为"false",则表示关闭了异步写回功能,所有的写操作都将同步执行。在StarRocks中,缓存可以显著提高查询性能,特别是对于频繁访问的数据。在StarRocks中,这些配置项是表属性的一部分,用于定义表的行为和性能特征。设置为"true",则StarRocks会尝试将热点数据缓存到内存中,以加速数据访问。

2024-05-29 15:10:03 621

原创 数据质量报告模板

数据质量报告报告概述报告日期:YYYY年MM月DD日 报告周期:报告覆盖的时间范围(例如,月度、季度) 报告版本:1.0 编制人员:报告编写者姓名 审核人员:报告审核者姓名数据集概览数据集名称:涉及的数据集或数据库名称 数据集描述:数据集的简要描述,包括其用途和重要性 数据量:报告周期内的数据记录总数 关键指标: 记录数 空值比例 重复记录数 数据更新频率 数据质量评估准确性定义:数据正确反映其真实世界实体的程度 评估方法:通过与权威数据源对比等方法

2024-05-28 13:37:12 1171

原创 OpenMetadata数据质量监控与提升方案

随着业务对数据依赖性的增强,数据质量成为了决定业务决策成功与否的关键因素。OpenMetadata作为一款强大的元数据管理工具,为我们提供了数据质量检测与监控的能力。本项目旨在通过OpenMetadata平台,构建一套高效、准确的数据质量监控体系,并通过预警机制,帮助业务团队及时了解数据质量问题,进而提升数据质量。

2024-05-28 13:27:03 610 1

原创 努力提升自己的技术能力

理解你的感受,很多人都会有类似的想法,尤其是在长期工作后感觉自己在技术和专业方面没有达到预期的水平。但是,重要的是要认识到学习是一个持续的过程,而且每个人都有自己的成长速度和方式。只要你保持耐心和毅力,持续努力,你一定能够提升自己的技能和专业水平。同时,也要相信自己的能力和潜力,相信自己可以变得更加强大和优秀。实践和反思:学习不仅仅是理论知识,更重要的是实践。不断追求新的知识和技能,跟上行业的最新发展,这将有助于你在职业生涯中保持竞争力。设定目标:明确你想要提升的具体技能或领域,然后设定短期和长期的目标。

2024-05-28 13:25:04 215

原创 工作时想玩游戏

如果你还没有开始工作,但是意识到不能继续玩游戏了,这是一个很好的自我管理和时间意识的体现。例如,在完成一项重要任务后,允许自己享受一段放松的时光,比如玩一下游戏或看一集喜欢的电视剧。例如,允许自己在工作完成后玩30分钟的游戏,然后回到工作或其他责任中。最重要的是,要认识到时间的宝贵性,并努力在工作和娱乐之间找到平衡。通过有效地管理时间,你可以更好地完成工作,同时享受生活的乐趣。:制定一个简单的工作计划,将任务分解成可管理的小块,并为每个任务分配合理的时间。:首先,确定你的工作目标和优先级。

2024-05-19 16:15:56 281

原创 配置邮件告警系统是数据质量管理

2. **告警条件设置**:定义触发邮件告警的数据质量规则,如数据缺失、异常值、重复记录等。7. **教育与培训**:对团队成员进行数据质量管理的教育和培训,提高他们的数据质量意识。- **提高数据质量意识**:定期的质量检测报告可以提高团队对数据质量的重视。- **责任明确**:指定的收件人可以根据告警邮件负责相应的数据质量问题。- **提升用户信任**:确保数据的可靠性,增强内外部用户对数据的信任。1. **数据质量检测**:运行已配置的质量检测脚本,对数据进行检测。

2024-05-17 13:47:58 302

原创 改进自己的工作方式和思路

1. **明确目标**:在开始任何工作之前,确实需要先明确你的目标是什么。4. **利用AI作为工具**:AI是一个强大的工具,可以帮助你提高效率和质量。5. **持续学习**:专业知识是基础,持续学习和提高自己的专业水平是非常重要的。这是一个持续改进的过程。10. **保持好奇心和开放性**:对于新的工具、技术和方法保持好奇心,愿意尝试和学习。6. **实践和应用**:将学到的知识应用到实际工作中,通过实践来巩固和深化理解。8. **时间管理**:合理安排时间,确保有足够的时间来思考、规划和执行。

2024-05-17 13:17:12 208

原创 excle的公式转flinksql

K:$K,"*"&"民"&"*",未完成订单!SUM(CASE WHEN 未完成订单.Q LIKE CONCAT('%', B30, '%') AND 未完成订单.K LIKE CONCAT('%', '民', '%') AND 未完成订单.I >= '2024-01-01' AND 未完成订单.I < '2024-04-01' THEN 未完成订单.S ELSE 0 END) +$M:$M,"<"&TEXT($T$7,"YYYY")-1&"-"&TEXT($T$7,"M")+1&"-1")`

2024-05-17 11:29:34 342 1

原创 cx_Oracle Python 库连接 Oracle 数据库时遇到报错

前往 Oracle 官方网站下载适合你操作系统(Windows、Linux、macOS)和 Python 版本的 64 位 Oracle Instant Client。如果你不希望在你的机器上安装 Oracle 客户端库,或者你的开发环境比较复杂,可以考虑使用 Docker 来运行一个包含 Oracle 客户端的容器,并在该容器中运行你的 Python 脚本。如果你需要指定 Oracle 客户端库的位置(特别是当你使用的是虚拟环境时),你可能需要设置。(Windows)中的路径。(对于 macOS)。

2024-05-16 14:56:47 2680

原创 要对数据源和同步后的数据进行数据量的对比

4. **数据对比**:在 Flink 中创建两个表,一个连接到数据源,另一个连接到目标系统,然后使用 Flink SQL 来比较这两个表的数据。3. **数据同步**:使用 Flink SQL CDC Connectors 或其他合适的连接器来同步数据源的数据到目标系统。5. **执行 Flink SQL**:在 Flink SQL 客户端或 Flink Web UI 提交上述 SQL 脚本。2. **数据同步**:如果你使用的是 Flink CDC Connectors,它会自动处理数据的增量同步。

2024-05-16 10:19:13 398

原创 积极向上的态度

通过持续的努力和实践,您将逐渐提高自己的工作效率和完成任务的能力。祝您在未来的工作中取得更大的成功!非常欣赏您这种积极向上的态度!

2024-05-16 08:56:35 413

原创 数据质量检测标准

即数据质量监控需要在etl任务执行后,check文件生成前,主动触发数据质量规则校验。规则校验未通过则报警,并且根据强弱规则,判定是否生成check文件和执行下游任务,弱规则生成check文件和继续执行下游任务,强规则不生成check文件和执行下游任务。为支持数据仓库全局的数据质量管控,需做好风险点监控,确保数据的完整性、准确性、及时性、一致性。时效监控和etl任务绑定,数据质量监控和数仓中的物理表绑定。工作流中任务出错会阻断下游任务,因此任务出错需立即发出预警,此功能由平台提供,无需配置。

2024-05-15 19:06:59 601

原创 要提升解决问题的能力

记住,提升解决问题的能力需要时间和实践。不要急于求成,保持耐心和坚持,你会逐渐发现自己在这方面的能力得到了提升。

2024-05-15 18:54:34 455

原创 时间管理是个人和组织提高效率的重要工具

2. **目的**:帮助个人识别任务的优先级,优先处理那些紧急且重要的任务,同时鼓励人们投资于那些不紧急但重要的任务,以减少第一象限任务的数量。1. **定义**:九宫格法则是一种更为生活化的时间管理工具,它将任务分为九个区域,通常包括工作、家庭、个人成长、健康、社交等方面。2. **目的**:帮助个人平衡生活的各个方面,确保在忙碌的工作中也不会忽视个人生活和长期目标。1. **定义**:四象限法则将任务分为四个象限,每个象限代表任务的不同重要性和紧急性。- 第四象限:不紧急也不重要。

2024-05-15 18:48:17 311

原创 将工作做好并赚取50万

记住,成功需要时间和努力。通过持续的努力和明智的决策,你将能够实现自己的目标并为自己的未来打下坚实的基础。将工作做好并赚取50万作为未来规划的一部分是一个明确且实际的目标。

2024-05-14 13:44:29 163

原创 多读书,多锻炼,勇敢点,去面对,去解决

总之,多读书、多锻炼、勇敢点、去面对、去解决这些建议都是非常有价值的。只要我们坚持去做,就一定能够收获一个更加健康、自信、成功的自己。这些建议都是非常积极和有益的,它们涵盖了身心健康和个人成长的重要方面。

2024-05-14 13:07:19 326

原创 惊人的“苦难守恒定律”(2020必读好文)

可是有谁知道她饱尝生活的艰辛,曾经住在没有大门的破房子里,过着饥一顿饱一顿地生活,又有谁知道她过去深受抑郁症的困扰,一度丧失对生活的所有期待,最后历时四年,才艰难走出来。他从小家境贫寒,偏偏仕途又颇为坎坷,唐贞元七年(791)孟郊第一次入京参加科举考试,却不幸落第,接着他又连续参加了多次科考,都以失败告终,个中苦楚,难以言说。每个人的生命里,都会有一段又一段难熬的时光,或许是失业的穷困,或许是失恋的悲伤,或许是创业的打击,或许病痛的折磨……当孙少平听从命运的召唤,赤手空拳,无比艰难地去东关桥头揽工时;

2024-05-14 11:31:15 331

原创 手机号码的正则表达式

手机号码的正则表达式会根据不同的国家/地区有所不同,因为每个国家/地区都有自己特定的手机号码格式。但是,我可以为你提供一个通用的正则表达式模板,并给出一些具体国家/地区的例子。

2024-05-14 10:52:06 1224

原创 让自己变得更加勇敢、有担当、有责任感

想要让自己变得更加勇敢、有担当、有责任感,并且能够妥善处理自己的事情,是一个值得追求的目标。最后,记住勇敢、有担当和责任感不是一夜之间就能培养出来的,它们需要时间和努力。只要你持续努力并坚持不懈,你一定能够实现自己的目标。

2024-05-14 08:41:24 201

原创 惊人的“苦难守恒定律”,读懂改变一生

如今,随着时代的发展,穷人早已不需要吃苦,每天的生活十分安逸舒适,享受短视频带来的愉悦和快感,吃着即点即到的外卖,惬意万分。日复一日,年复一年,这对夫妻始终精心的照料它们,直到一天,这对夫妻年龄大了,离开了小岛,这群天鹅也随之消失。反观富人,每天为了创造更多的财富,巩固自己的江山和地位,必须时刻精进,做诸多痛苦的事情,不断吃苦前行。宝剑越磨越是锋利,梅花越寒越是芬芳,人亦是如此,肯吃苦,能自律,就能达人所不达,见人所未见。“人生如茶,亲品者,细细品尝余甘无穷,但若是勉强为之,只会记得入口时的苦涩。

2024-05-13 17:23:16 130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除