shijiuhuaR-CSDN博客

原创 Spark SQL函数

开窗函数row_number()是Spark SQL中常用的一个窗口函数，使用该函数可以在查询结果中对每个分组的数据，按照其排列的顺序添加一列行号（从1开始），根据行号可以方便地对每一组数据取前N行（分组取TopN）。上述代码中，df指的是DataFrame对象，使用select()方法传入需要查询的列，使用as()方法指定列的别名。开窗函数是为了既显示聚合前的数据，又显示聚合后的数据，即在每一行的最后一列添加聚合函数的结果。

2024-06-18 09:59:17 934

原创 Spark SQL基本使用

SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序，支持从不同的数据源加载数据，并把数据转换成DataFrame，然后使用SQL语句来操作DataFrame数据。在Spark中，一个DataFrame代表的是一个元素类型为Row的Dataset，即DataFrame只是Dataset[Row]的一个类型别名。 Spark SQL查询的是DataFrame中的数据，因此需要将存有元数据信息的Dataset转为DataFrame。

2024-06-18 09:53:17 287

原创 Spark RDD算子创建

例如，将数据集(hello,world,scala,spark,love,spark,happy)存储在三个节点上，节点一存储(hello,world)，节点二存储(scala,spark,love)，节点三存储(spark,happy)，这样对三个节点的数据可以并行计算，并且三个节点的数据共同组成了一个RDD。在编程时，可以把RDD看作是一个数据操作的基本单位，而不必关心数据的分布式特性，Spark会自动将RDD的数据分发到集群的各个节点。不同的是，数据的来源路径不同。

2024-06-17 15:13:10 353

原创 Spark RDD算子

reduceByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成一个元素。 groupByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成为一个元素。与map()算子类似，但是每个传入函数的RDD元素会返回0到多个元素，最终会将返回的所有元素合并到一个RDD。

2024-06-17 15:10:32 485

原创 Spark运行模式

Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。本地模式在提交应用程序后，将会在本地生成一个名为SparkSubmit的进程，该进程既负责程序的提交，又负责任务的分配、执行和监控等。集群的主节点称为Master节点，在集群启动时会在主节点启动一个名为Master的守护进程；

2024-06-17 15:03:54 496

原创 Spark 概述

Spark可以使用独立集群模式运行（使用自带的独立资源调度器，称为Standalone模式），也可以运行在Hadoop YARN、Mesos（Apache下的一个开源分布式资源管理框架）等集群管理器之上，并且可以访问HDFS、HBase、Hive等数百个数据源中的数据。Spark是由多个组件构成的软件栈，Spark 的核心（Spark Core）是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用进行调度、分发以及监控的计算引擎。###Spark主要组件。

2024-06-14 16:33:30 341

原创 HBase部署与启动

- hbase数据存放的目录，若用本地目录，必须带上file://,否则hbase启动不起来 -->--hbase.cluster.distributed表示是否分布式部署,指定为true-->（3）拷贝zookeeper的conf/zoo.cfg到hbase的conf/下。-- hbase主节点的位置 --> 执行start-hbase.sh脚本。-- zk的位置 -->（3）配置hbase-site.xml。（2）配置hbase-env.sh。（4）启动HBase。

2024-06-13 14:26:55 265

原创 HBase理论

列式存储

2024-06-13 14:22:38 227

原创 Hive 数据库操作

原因：手动在hdfs创建的分区目录信息，并没有保存到元数据库中，所以查询的时候从mysql元数据库查询不到country=en的分区信息，所以查不到数据。- overwrite覆盖操作，使用hdfs上某文件里的数据覆盖掉emp表的数据（此操作完毕后，hdfs上的该文件就自动删除）思考：能否手动在hdfs添加一个分区目录country=en，并上传文件数据，那么在分区表中能否查到新的分区数据呢？内部表又称受控表，当删除内部表的时候，存储在文件系统上的数据（例。先有内部表，再向表中插入数据。

2024-06-13 14:17:23 287

原创 Hive 安装配置与启动

hive开启的thriftServer端口</description><description>配置超级用户允许通过代理访问的主机节点</description><description>hive使用的HDFS目录</description><description>开启Hive的并发模式</description><description>数据库使用用户名

2024-06-13 14:15:42 656