自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Spark SQL函数

​ 开窗函数row_number()是Spark SQL中常用的一个窗口函数,使用该函数可以在查询结果中对每个分组的数据,按照其排列的顺序添加一列行号(从1开始),根据行号可以方便地对每一组数据取前N行(分组取TopN)。​ 上述代码中,df指的是DataFrame对象,使用select()方法传入需要查询的列,使用as()方法指定列的别名。​ 开窗函数是为了既显示聚合前的数据,又显示聚合后的数据,即在每一行的最后一列添加聚合函数的结果。

2024-06-18 09:59:17 934

原创 Spark SQL基本使用

SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序,支持从不同的数据源加载数据,并把数据转换成DataFrame,然后使用SQL语句来操作DataFrame数据。在Spark中,一个DataFrame代表的是一个元素类型为Row的Dataset,即DataFrame只是Dataset[Row]的一个类型别名。​ Spark SQL查询的是DataFrame中的数据,因此需要将存有元数据信息的Dataset转为DataFrame。

2024-06-18 09:53:17 287

原创 Spark RDD算子创建

​ 例如,将数据集(hello,world,scala,spark,love,spark,happy)存储在三个节点上,节点一存储(hello,world),节点二存储(scala,spark,love),节点三存储(spark,happy),这样对三个节点的数据可以并行计算,并且三个节点的数据共同组成了一个RDD。​ 在编程时,可以把RDD看作是一个数据操作的基本单位,而不必关心数据的分布式特性,Spark会自动将RDD的数据分发到集群的各个节点。不同的是,数据的来源路径不同。

2024-06-17 15:13:10 353

原创 Spark RDD算子

​ reduceByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成一个元素。​ groupByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成为一个元素。与map()算子类似,但是每个传入函数的RDD元素会返回0到多个元素,最终会将返回的所有元素合并到一个RDD。

2024-06-17 15:10:32 485

原创 Spark运行模式

​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。本地模式在提交应用程序后,将会在本地生成一个名为SparkSubmit的进程,该进程既负责程序的提交,又负责任务的分配、执行和监控等。集群的主节点称为Master节点,在集群启动时会在主节点启动一个名为Master的守护进程;

2024-06-17 15:03:54 496

原创 Spark 概述

​ Spark可以使用独立集群模式运行(使用自带的独立资源调度器,称为Standalone模式),也可以运行在Hadoop YARN、Mesos(Apache下的一个开源分布式资源管理框架)等集群管理器之上,并且可以访问HDFS、HBase、Hive等数百个数据源中的数据。Spark是由多个组件构成的软件栈,Spark 的核心(Spark Core)是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用进行调度、分发以及监控的计算引擎。###Spark主要组件。

2024-06-14 16:33:30 341

原创 HBase部署与启动

- hbase数据存放的目录,若用本地目录,必须带上file://,否则hbase启动不起来 -->--hbase.cluster.distributed表示是否分布式部署,指定为true-->(3)拷贝zookeeper的conf/zoo.cfg到hbase的conf/下。-- hbase主节点的位置 -->​ 执行start-hbase.sh脚本。-- zk的位置 -->(3)配置hbase-site.xml。(2)配置hbase-env.sh。(4)启动HBase。

2024-06-13 14:26:55 265

原创 HBase理论

列式存储

2024-06-13 14:22:38 227

原创 Hive 数据库操作

原因:手动在hdfs创建的分区目录信息,并没有保存到元数据库中,所以查询的时候从mysql元数据库查询不到country=en的分区信息,所以查不到数据。- overwrite覆盖操作,使用hdfs上某文件里的数据覆盖掉emp表的数据(此操作完毕后,hdfs上的该文件就自动删除)思考:能否手动在hdfs添加一个分区目录country=en,并上传文件数据,那么在分区表中能否查到新的分区数据呢?​ 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例。先有内部表,再向表中插入数据。

2024-06-13 14:17:23 287

原创 Hive 安装 配置与启动

hive开启的thriftServer端口</description><description>配置超级用户允许通过代理访问的主机节点</description><description>hive使用的HDFS目录</description><description>开启Hive的并发模式</description><description>数据库使用用户名

2024-06-13 14:15:42 656

原创 电商日志数据分析

(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-10 20:43:45 126

原创 电商日志数据分析

只需要将数据其中的IP,使用qqwry.dat文件可以转化为所对应的国家,城市,省份。统计各个省份的浏览量 (需要解析IP)

2024-06-06 22:48:41 231

原创 电商日志数据分析

统计页面浏览量(每行记录就是一次浏览)只需要把每一行的数据设置为相同的key。

2024-06-05 22:58:15 137

原创 Hadoop namenode连接问题(没有ens33)

ens33

2024-06-04 23:27:46 257 2

原创 【数据结构 C语言版】树,二叉树,线索二叉树,哈夫曼树

【数据结构 C语言版】树,二叉树,线索二叉树,哈夫曼树

2022-11-05 09:16:55 560

原创 【Python】字符串2 (字符串常用函数)

字符串常用函数

2022-11-04 16:18:27 268 1

原创 【Python】字符串1

Python 字符串的表示与字符串格式化

2022-10-26 13:06:45 316

原创 【DCGAN】生成对抗网络,手写数字识别

【DCGAN】生成对抗网络,手写数字识别基于paddle,aistudio的DCGAN主要用于记录自己学习经历。

2022-10-24 22:32:21 848

原创 队列数据类型及Python实现

队列数据类型及Python实现

2022-10-16 19:57:21 717

原创 【数据结构 C语言版】 栈与队列

【数据结构 C语言版】 栈与队列

2022-10-16 14:42:19 495

原创 【Python】字典与集合

【Python】字典与集合

2022-10-15 14:31:34 386

原创 【Python】列表与元组

【Python】列表与元组

2022-10-12 16:31:59 552

原创 【Python】 常见内置函数

【Python】 常见内置函数

2022-10-12 15:43:17 278

原创 栈抽象数据类型及Python实现

栈抽象数据类型及Python实现

2022-09-25 21:37:37 658

原创 [NumPy] 常用方法速查

[NumPy] 常用方法速查

2022-09-25 10:57:33 401

原创 【数据结构 c语言版 】线性表的链式表示和实现

线性表的链式表示和实现

2022-09-21 22:42:42 1038

原创 【数据结构 c语言版 】线性表的顺序表示和实现

线性表的顺序表示和实现

2022-09-21 16:51:17 631

原创 在模块XXX 中找不到或无法加载主类 x.x

在模块XXX 中找不到或无法加载主类 x.x

2022-04-09 20:59:00 4730

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除