- 博客(28)
- 收藏
- 关注
原创 Spark SQL函数
开窗函数row_number()是Spark SQL中常用的一个窗口函数,使用该函数可以在查询结果中对每个分组的数据,按照其排列的顺序添加一列行号(从1开始),根据行号可以方便地对每一组数据取前N行(分组取TopN)。 上述代码中,df指的是DataFrame对象,使用select()方法传入需要查询的列,使用as()方法指定列的别名。 开窗函数是为了既显示聚合前的数据,又显示聚合后的数据,即在每一行的最后一列添加聚合函数的结果。
2024-06-18 09:59:17 934
原创 Spark SQL基本使用
SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序,支持从不同的数据源加载数据,并把数据转换成DataFrame,然后使用SQL语句来操作DataFrame数据。在Spark中,一个DataFrame代表的是一个元素类型为Row的Dataset,即DataFrame只是Dataset[Row]的一个类型别名。 Spark SQL查询的是DataFrame中的数据,因此需要将存有元数据信息的Dataset转为DataFrame。
2024-06-18 09:53:17 287
原创 Spark RDD算子创建
例如,将数据集(hello,world,scala,spark,love,spark,happy)存储在三个节点上,节点一存储(hello,world),节点二存储(scala,spark,love),节点三存储(spark,happy),这样对三个节点的数据可以并行计算,并且三个节点的数据共同组成了一个RDD。 在编程时,可以把RDD看作是一个数据操作的基本单位,而不必关心数据的分布式特性,Spark会自动将RDD的数据分发到集群的各个节点。不同的是,数据的来源路径不同。
2024-06-17 15:13:10 353
原创 Spark RDD算子
reduceByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成一个元素。 groupByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成为一个元素。与map()算子类似,但是每个传入函数的RDD元素会返回0到多个元素,最终会将返回的所有元素合并到一个RDD。
2024-06-17 15:10:32 485
原创 Spark运行模式
Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。本地模式在提交应用程序后,将会在本地生成一个名为SparkSubmit的进程,该进程既负责程序的提交,又负责任务的分配、执行和监控等。集群的主节点称为Master节点,在集群启动时会在主节点启动一个名为Master的守护进程;
2024-06-17 15:03:54 496
原创 Spark 概述
Spark可以使用独立集群模式运行(使用自带的独立资源调度器,称为Standalone模式),也可以运行在Hadoop YARN、Mesos(Apache下的一个开源分布式资源管理框架)等集群管理器之上,并且可以访问HDFS、HBase、Hive等数百个数据源中的数据。Spark是由多个组件构成的软件栈,Spark 的核心(Spark Core)是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用进行调度、分发以及监控的计算引擎。###Spark主要组件。
2024-06-14 16:33:30 341
原创 HBase部署与启动
- hbase数据存放的目录,若用本地目录,必须带上file://,否则hbase启动不起来 -->--hbase.cluster.distributed表示是否分布式部署,指定为true-->(3)拷贝zookeeper的conf/zoo.cfg到hbase的conf/下。-- hbase主节点的位置 --> 执行start-hbase.sh脚本。-- zk的位置 -->(3)配置hbase-site.xml。(2)配置hbase-env.sh。(4)启动HBase。
2024-06-13 14:26:55 265
原创 Hive 数据库操作
原因:手动在hdfs创建的分区目录信息,并没有保存到元数据库中,所以查询的时候从mysql元数据库查询不到country=en的分区信息,所以查不到数据。- overwrite覆盖操作,使用hdfs上某文件里的数据覆盖掉emp表的数据(此操作完毕后,hdfs上的该文件就自动删除)思考:能否手动在hdfs添加一个分区目录country=en,并上传文件数据,那么在分区表中能否查到新的分区数据呢? 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例。先有内部表,再向表中插入数据。
2024-06-13 14:17:23 287
原创 Hive 安装 配置与启动
hive开启的thriftServer端口</description><description>配置超级用户允许通过代理访问的主机节点</description><description>hive使用的HDFS目录</description><description>开启Hive的并发模式</description><description>数据库使用用户名
2024-06-13 14:15:42 656
原创 【DCGAN】生成对抗网络,手写数字识别
【DCGAN】生成对抗网络,手写数字识别基于paddle,aistudio的DCGAN主要用于记录自己学习经历。
2022-10-24 22:32:21 848
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人