数据计算与分析组件
文章平均质量分 89
时下握今
好好学习、天天向上; 喜欢代码,热爱时间
展开
-
Apache Doris 快速入门
Doris建表默认是有顺序的,这个顺序就是字段的顺序,可以认为这就是它默认的聚合索引。分区可以省略,如果省略的话,默认Doris系统会创建一个分区,这个分区成为单分区,它的分区名字和表名一样。-h:这是我们连接的FE的IP地址,如果你的客户端和FE安装在同一个节点上,可以使用127.0.0.1。FE,Frontend,前端节点,接收用户查询请求,SQL解析,执行计划生成,元数据管理,节点管理等。BE,Backend,后端节点,数据存储,执行查询计划。建表时,可以省略,默认是冗余模型。原创 2023-09-20 23:09:50 · 933 阅读 · 0 评论 -
flink-connector-mysql-cdc
FlinkCDC是一个实现CDC(Change Data Capture)思想的数据同步工具。借助于Flink CDC Connector ,它监听数据库的二进制日志文件,来获取数据库变更的数据,以此实现数据同步。原创 2023-09-19 16:35:51 · 1200 阅读 · 0 评论 -
Hive的窗口函数与行列转换函数及JSON解析函数
hive中内置的json_tuple()函数,可以将json数据解析成普通的结构化数据表。map中每个key-value对,生成一行,key为一列,value为一列。, 收集某个字段的值,进行去重汇总,产生Array类型,即将某列数据转换成数组。生成数据项在分组中的排名,排名相等会在名次中不会留下空位。生成数据项在分组中的排名,排名相等会在名次中留下空位。行转列函数的应用:将星座和血型相同的人归类到一起。从1开始,按照顺序,生成分组内记录的序列。行转列是指多行数据转换为一个列的字段。原创 2023-08-17 16:14:55 · 770 阅读 · 0 评论 -
Flink状态的理解
Flink是一个带状态的数据处理系统;系统在处理数据的过程中,各算子所记录的状态会随着数据的处理而不断变化;原创 2023-07-26 16:28:49 · 1493 阅读 · 0 评论 -
SparkSQL的数据结构DataFrame构建方式(Python语言)
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据,其提供了两个操作SparkSQL的抽象,分别是DataFrame和DataSet,spark2.0之后,统一了DataSet和DataFrame,以后只有DataSet。以Python、R语言开发Spark,使用没有泛型的DataSet,即DataFrame结构。Java、Scala语言开发Spark,既可以使用带泛型的DataSet数据结构,也可以使用不带泛型的DataFrame数据结构DataFrame是一种以RDD为基础的分布式数据集原创 2023-07-04 17:31:07 · 820 阅读 · 0 评论 -
DataGrip编写SQL语句操作Spark(Spark ThriftServer)
thrift server服务出现, 只是提供了新的方式来书写SQL: .beeline方式 或者 图形化界面方式。适用于: 纯 SQL的开发工作, 开发后, 形成一个个的SQL的脚本, 在部署上线的时候, 采用spark-sql提交运行原创 2023-07-03 12:59:57 · 2461 阅读 · 5 评论 -
SparkSQL与Hive整合(Spark On Hive)
hive metastore元数据服务用来存储元数据,所谓元数据,即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。metastore服务独立出来之后,1个或多个客户端在配置文件中添加metastore的地址,就可以同时连接metastore服务,metastore再去连接MySQL数据库来存取元数据。SparkSQL同样适用,SparkSQL语句提交给Spark集群,Spark执行引擎查询metastore服务获取元数据,将Sp原创 2023-07-02 18:29:20 · 2551 阅读 · 0 评论 -
Spark on Yarn 环境搭建
当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,设置属性告知Spark Application应用。计算圆周率PI的Spark程序,提交到Yarn上运行,在Centos平台上直接用spark-sumbit脚本提交程序。三台Centos7机器: 主机名分别为:node1、node2、node3。设置资源信息,提交运行pi程序至YARN上。原创 2023-07-02 15:16:17 · 1289 阅读 · 0 评论 -
Spark-Job调度流程
TaskScheduler接收到各个阶段的TaskSet后, 开始进行任务的分配工作, 确认每个线程应该运行在那个executor上(尽可能保持均衡), 然后将任务提交给对应executor上,让executor启动线程执行任务即可,阶段是一个一个的运行, 无法并行执行的。向当前等待分配计算资源的Task分配Executor,并且在分配的Executor上启动Task,完成计算的资源调度。并行度设置, 需要在shuffle后生效, shuffle前的分区数量, 默认取决于初始数据源的时候确认的分区数量。原创 2020-06-18 18:54:29 · 269 阅读 · 0 评论 -
Spark Shuffle机制
该过程的磁盘写机制其实跟未经优化的HashShuffleManager一样,因为都要创建数量惊人的磁盘文件,只是在最后会做一个磁盘文件的合并而已。因此少量的最终磁盘文件,也让该机制相对未经优化的HashShuffleManager来说,shuffle read的性能更好。ShuffleManager随着Spark的发展有两种实现的方式,分别为HashShuffleManager和SortShuffleManager,因此spark的Shuffle有Hash Shuffle和Sort Shuffle两种。原创 2020-08-10 15:32:56 · 693 阅读 · 0 评论 -
Spark中的有向无环图(DAG:Directed Acyclic Graph)
Spark的计算过程,很多时候都有先后顺序,受制于某些任务必须比另一些任务较早执行的限制,必须对任务进行排队,形成一个队列的任务集合,这个队列的任务集合就是DAG图。DAG连续多个窄依赖,会放到到同一台机器的内存中完成。Spark中DAG生成过程的重点是对Stage的划分,Stage的划分依赖RDD宽窄依赖,当Driver程序提交后,Spark调度器将。:对应宽依赖中的一个分区,或者窄依赖中的一个平行流水线。,然后对此Stage进行从后往前的回溯,遇到Shuffle就断开,形成一个新的State,遇到。原创 2020-06-17 18:02:36 · 3981 阅读 · 0 评论 -
Spark - Resilient Distributed Datasets (RDDs)介绍
Resilient Distributed DataSets,弹性分布式数据集,可以把RDD看作一种分布式集合。其RDD本身不存储数据,数据实际存储在内存或磁盘上。同时RDD中的数据不可更改,只能通过算子生成一个新的RDD实现对数据的修改。一个父RDD可以被多个下游RDD依赖,为避免父RDD重复计算,可对父RDD的计算结果缓存。RDD可定义分区规则,实现多线程并发处理RDD中的数据。原创 2020-06-15 18:44:34 · 912 阅读 · 0 评论 -
PySpark集群环境安装(HA-Standalone模式)
Centos平台,基于anaconda虚拟python环境,搭建spark高可用集群的搭建步骤原创 2023-06-18 15:18:17 · 1481 阅读 · 0 评论
分享