最全数据仓库解决方案——ODPS组件化改造之路(1),2024大数据开发面试真题精选干货整理

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  1. 在某系统中需要统计分析不同维度下的销售数据,比如城市、省份、时间段(天、周、月)、区域等等

  2. 某平台需要给多个业务输出数据,希望不同业务间的数据做隔离,一个业务只能读取本业务范围内的数据。

不知道现在有没有体感了,如果有了,请继续往下看。


解决思路



其实以上问题归根结底,我们需要有一套代码模板来实现代码的复用,我们可以通过参数的控制实现差异化的功能。

开始,笔者想到的是通过Java后台来生成这套模板代码,然后在ODPS 上创建Python脚本,通过Http请求Java后台的服务,以动态脚本的方式离线调度执行。

但很快发现这种方式存在诸多问题:

  • 代码在JAVA侧,JAVA侧拼接SQL极易出错,需要经常发布JAVA应用来实现某个离线小功能的迭代,并且离线代码侵入后台系统本身也不太合理。

  • SQL是动态生成的,缺少代码格式化,只能通过运行日志找到实际运行的代码,可读性差。

  • 代码存在两个系统中,较为黑盒,代码测试和debug都较为困难。

最后,在翻阅ODPS的官方文档后发现,其实这些问题ODPS平台上已经具备相应的解决方案了——ODPS组件。

初识ODPS组件

============


▐  组件的定义

组件是一种带有多个输入参数和输出参数的SQL代码过程模板, SQL代码的处理过程一般是引入一到多个源数据表,通过过滤,连接,聚合等操作,加工出新的业务需要的目标表。

****▐  组件的价值

如上,在实际业务实践中,有大量的SQL代码过程很类似,过程中输入的表和输出的表的结构是一样的或者是类型兼容的,仅仅是名字不同而已。这个时候组件的开发者就可以将这样的一个 SQL 过程抽象成为一个SQL组件节点,将里面可变的输入表抽象成输入参数,把里面可变的输出表抽象成输出参数,就可以实现 SQL 代码的复用。

组件的使用者在使用 SQL 组件节点的时候,只要从组件列表中选择和自己业务处理过程类似的组件,为这些组件配置上自己业务中特定的 输入表和输出表,不用再重复复制代码,就可以直接生成新的组件 SQL 节点 从而极大提高了开发效率,避免了重复开发。

SQL 组件节点生成后的发布,调度的操作方法都和普通的 SQL 节点的操作方式是一样的。

▐  组件的结构

一个组件就像一个函数的定义一样,由输入参数,输出参数和组件代码过程构成。

组件的输入参数

组件的输入参数具有参数名,参数类型,参数描述,参数定义等属性, 参数类型有两种:一个是表类型 table,一种是字符串类型 string。

✎  表类型的参数

指定组件过程中要引用到的表,在使用组件的时候,组件的使用者可以为该参数填入其特定业务需要的表。

  字符串类型的参数

指定组件过程中需要变化的控制参数,比如指定过程的结果表只输出每个区域的头 N 个城市的销售额,这个 n 是 1 还是 3 就可以通过字符串类型的参数进行控制;另一个例子,要指定过程的结果表输出那个省份的销售总额,可以设置一个省份字符串参数,指定不同的省份,就能获得指定省份的销售数据。

  组件的输出参数

组件的输出参数具有参数名,参数类型,参数描述,参数定义等属性,参数类型只有一种:表类型 table。字符串类型的输出参数没有逻辑意义。

  组件的过程体

在过程体中参数的引用格式为:@@{参数名}

过程体通过编写抽象的sql 加工过程,将指定的输入表按照输入参数进行控制加工出有业务价值的输出表。

PS:其实作为码农,我们能很好地理解组件的概念,因为即使你没写过ODPS代码,不知道ODPS的组件,但你一定在你曾经用过的语言里找到类似的概念,例如,前端领域中的UI组件,移动Android开发中的组件,Java开发中的各种框架,Jar包等等都是一些组件。

===

牛刀小试

========


作为初识ODPS组件的小白,我们先尝试写一个helloword,实现从一张大表中按业务拆分出多张子表,分别给到各自业务各自的表。

▐  创建组件

过程体开发

PS: 组件过程的开发具有一定的技巧,组件过程的代码需要巧妙的利用输入参数和输出参数,使得组件过程能够在使用的时刻填入不同的输入参数和输出参数也能生成正确的可运行的sql代码。

填写输入输出参数

调试&运行

在做完以上两步后,我们可以直接在组件开发的界面点击运行,输入测试的参数进行调试运行。

发布

组件具有版本号的功能,每次发布,版本号会自增,后面组件使用的地方会用到。

▐  组件引用

在数据开发页面,在文件夹目录先右键选择创建SQL组件节点。

使用组件节点与SQL节点,大部分开发使用习惯都是一样的,包括调度配置也都一样,唯独不同的是组件节点关联了一个组件,如果需要更新节点,需要先更新组件的代码,然后更新节点的代码版本。

进阶使用

========


img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

中…(img-K2gzN8WV-1715479567585)]

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值