![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 87
一鸣888
感觉要暴富
展开
-
Table API 和 Flink SQL
Over windows 使用 window(w:overwindows*)子句定义,并在 select()为了定义一个表函数,必须扩展 org.apache.flink.table.functions 中的基类。为了定义标量函数,必须在 org.apache.flink.table.functions 中扩展基类。Table API 基于代表“表”的 Table 类,并提供一整套操作处理的方法 API;用户定义函数(User-defined Functions,UDF)是一个重要的特性,它们显。原创 2023-10-04 12:31:21 · 56 阅读 · 0 评论 -
Table API 和 Flink SQL
更改,进行持续的修改。持续查询,会在动态表上做计算处理,并作为结果生成新的动态表。表作为流式查询的结果,是动态更新的。本身,一般是有界的,更适合批处理的场景。因为流处理面对的数据,是连续不断的,这和我们熟悉的关系型数据库中保存的“表”在任何时间点,连续查询的结果在语义上,等同于在输入表的快照上,以批处理模式执。在大多数情况下,用户定义的函数必须先注册,然后才能在查询中使用。并且,对于表函数返回的是空表的外部行,也要保留下来。定义一个滑动窗口,第一个参数是时间字段,第二个参数是窗口滑动步长,第三个是窗。原创 2023-10-04 12:14:56 · 216 阅读 · 0 评论 -
shell从入门到精通
前言学习目标熟悉Linux系统常用命令与工具,掌握Shell脚本语言语法结构,能独立编写Shell脚本,完成自动化运维常规任务,提高工作效率,为以后学习其他语言打下坚实的基础。目标人群运维工程师、开发工程师、Linux系统爱好者或已经具备其他编程语言的人群。操作系统本文档实验均采用CentOS7_X64系统。目录第一章Shell基础知识 1.1 Shell简介 1.2 Shell基本分两大类原创 2023-09-17 19:12:30 · 3074 阅读 · 0 评论 -
大数据高级技术之 Linux
表 4-1 常用语法语法 功能描述yy 复制光标当前一行y 数字 y 复制一段(从第几行到第几行)p 箭头移动到目的行粘贴u 撤销上一步dd 删除光标当前行d 数字 d 删除光标(含)后多少行x 剪切一个字母,相当于 delX 剪切一个字母,相当于 Backspaceyw 复制一个词dw 删除一个词shift+6(^) 移动到行头shift+4 ($) 移动到行尾1+shift+g 移动到页头,数字shift+g 移动到页尾。原创 2023-09-04 16:11:34 · 68 阅读 · 0 评论 -
数据湖知识体系总结
接口层为 WebHDFS,比较特别的是在 Azure object Storage 实现了 HDFS 的接口,综上,从传统的 hadoop 架构往 lambda 架构,从 lambda 架构往 Kappa 架构的演。论是 SQL 还是 Spark 引擎,都和 Meta data catalog 深度集成,能方便的。stage,每个 stage 都可以有一个或者多个 Task 组成,Task 是可以并发执行的,提供了 SageMaker 服务,SageMaker 可以读取 S3 中的训练数据,并将训练好的。原创 2023-08-27 01:05:00 · 344 阅读 · 0 评论 -
大数据技术之 ClickHouse 入门
查所有人的年龄时,需要不停的查找,或者全表扫描才行,遍历的很多数据都是不需要的。如一些编码,性别等但是考虑到一定的变化风险,带来收益不够明显,所以定长字符串使用。固定长度的可以保存一些定长的内容,比。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎使用的相关。一般用到它的地方不多,除了用来测试,就是在需要非常高的性能,同时数据量又不太。任何一个批次的数据写入都会产生一个临时分区,不会纳入任何一个已有的分区。稀疏索引的好处就是可以用很少的索引数据,定位更多的数据,代价就是只能定位到索。原创 2023-08-24 17:41:46 · 190 阅读 · 0 评论 -
scala 学习
我们在定义类型的时候,因为之前 var age:Int=18 的这种语法,和其他代码的编写方式都不一样,所以很多人用起来并不习惯,那么我们也可以使用类型推断的方式来定义变量,也就是让scala自已去判断变量属于哪种类型:var 变量名=值前面我们有提到Nothing和Any,分别来举个例子看看:这里我声明了一个List数组,但是数组的括号里面没有任何东西,所有scala这个时候它就没有办法帮我推断出类型具体是什么,于是它使用了Nothing来表示。原创 2023-08-20 07:20:01 · 242 阅读 · 2 评论 -
sparkSQL笔记
我们必须使用案例类定义员工记录数据的模式。下面的命令是用于根据给定数据(例如empno,ename,salary,deptno)来声明Case Class。原创 2023-08-20 07:16:17 · 52 阅读 · 0 评论 -
从零到一学习Linux
系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统。当我们在实际工作中,如果需要部署一个项目,则应当向压缩后,再上传,上传后,使用。中,有很多目录,是安装后,有自动有目录,每个目录都会存放相应的内容,不要去修。本质就是进程,但是是运行在后台的,通常都会监听某个端口,等待其它程序的请。每一个进程,都会对应一个父进程,而这个父进程可以复制多个子进程。上面的方式,只是临时生效,当你重启系统,挂载的关系没有, 配置。需要一个环境,我们需要创建一个虚拟机,然后在虚拟机上安装一个。原创 2023-08-16 23:13:01 · 63 阅读 · 0 评论