- 博客(36)
- 收藏
- 关注
原创 Pyspark dataframe基本内置方法(5)
pyspark 中对于pyspark sql dataframe的操作方式详细使用方式以及演示
2024-09-20 10:15:57 1303
原创 Pyspark dataframe基本内置方法(4)
RDD 只是抽象意义的数据集合,分区内部并不会存储具体的数据,只会存储它在该 RDD 中的 index,通过该 RDD 的 ID 和分区的 index 可以唯一确定对应数据块的编号,然后通过底层存储层的接口提取到数据进行处理。在物理存储中,每个分区指向一个存储在内存或者硬盘中的数据块 (Block) ,其实这个数据块就是每个 task 计算出的数据块,它们可以分布在不同的节点上。返回一个新的DataFrame,其中包含此DataFrame中的行,但不包含另一个DataFrame中。接受sql表达式并执行。
2024-09-20 10:12:11 770
原创 Pyspark dataframe基本内置方法(3)
处理大表join时,spark默认策略可能不是最优解,通过hint 可以设置join类型。其他hints: merge,shuffle,coalesce。intersectAll 获取交集(保留重复项)注意聚合方式可能会影响show出来的列。
2024-09-11 14:48:31 513
原创 Pyspark dataframe基本内置方法(2)
返回一个新的DataFrame,其中包含此DataFrame中的行,但不包含在另一个DataFrame中,同时保留重复项。dropna() 参数可选项 all,全部为空的行,any只要存在null行就删掉,默认为any。fillna() 别名 na.fill() ,如果列的类型不符合填充的类型,则这列不填补。df1,df2,就是df1剔除(df1与df2交集)。返回数量,平均值,标准方差,最小值,最大值(字符串也可统计)。创建的全局临时视图名已经存在的,将会进行替换操作不会报错。
2024-09-11 09:46:33 737
原创 Pyspark dataframe基本内置方法(1)
Checkpoint是一种重量级的使用,也就是RDD的重新计算成本很高的时候,我们采用Checkpoint比较合适,或者数据量很大的时候,采用Checkpoint比较合适。如果数据量小,或者RDD重新计算也是非常快的,直接使用缓存即可。(aggregate)函数用于对 DataFrame 进行聚合操作。它允许你在一个或多个列上应用一个或多个聚合函数,并返回计算后的结果。当任务提交到集群的时候collect()操作是用来将所有结点中的数据收集到dirver节点,数据量很大慎用防止dirver炸掉。
2024-09-05 17:24:29 767
原创 Linux下使用crontab配置定时任务
为Linux下的计划任务程序,对应的服务为crond。crond是一个守护进程,每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。Linux系统上面原本就有非常多的计划性工作,故而,这个系统服务是默认启动的。使用#注释任务,或者直接删除,当你注释时crontab -l 也会显示被注释的任务。创建定时任务测试文件。
2024-09-05 17:22:23 580
原创 postgresql简单数据备份
PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统(RDBMS)python链接postgresql使用的包是psycopg2,免密操作后不需要 用户密码。
2024-09-03 16:57:16 612
原创 Pyspark中catalog的作用与常用方法
Catalog是Spark中用于管理元数据信息的接口,这些元数据可能包括库、内部或外部表、函数、表列及临时视图等。总的来说,PySpark Catalogs是PySpark框架中用于管理和查询元数据的重要组件,它使得Python用户能够更有效地利用PySpark进行大数据处理和分析。
2024-09-03 16:54:25 1272
原创 Hive的存储格式
Hive支持的存储数的格式主要有:TEXTFILE(默认格式) 、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式,建表时没有指定文件格式,则使用TEXTFILE,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;sequencefile,rcfile,orcfile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从表中用insert导入sequencefile、 rcfile、orcfile表中。
2024-08-30 21:25:59 1078
原创 Pyspark中的ROW对象使用
在PySpark中,Row对象是DataFrame的基本组成单元,它封装了DataFrame中的每一行数据。每行数据以Row对象的形式存在,其中包含了该行的各个字段值。这些字段值可以像属性一样被访问,使得处理数据变得更加直观和方便。Row对象的创建和使用,使得PySpark能够以更加结构化的方式处理数据,提高了数据处理效率和便利性。
2024-08-30 16:42:15 923
原创 hive 内部表与外部表
hive 是基于hadoop的数据仓库工具,本身并不存储数据,hive会把数据存储到 hdfs中,利用自带的sql解析引擎,把sql 语句转换成 mr job(mapreduce的任务) ,在 hadoop 的 mapreduce 引擎上对数据进行查询、统计和分析。对比项内部表外部表Hive 管理范围建表语句元数据、实际的表数据元数据建表语句不需要 external 关键字修饰需要 external 关键字修饰drop 表后果删除元数据和实际的表数据只删除元数据,实际的表数据保留。
2024-08-28 21:14:08 250
原创 hive中的分区
Hive分区的概念与传统关系型数据库分区不一样。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:因为Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并非一个实际字段。因此能够这样理解,当在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录上添加数据文件。
2024-08-28 21:04:12 944 1
原创 Pyspark中RDD常用方法
的转化操作,对数据集中的每一个元素,应用一个具名/匿名 函数进行才处理;一个或多个map可以异步进行,因为它们不会产生副作用。输出一个由RDD中所有元素组成的列表 一般只在小规模数据中使用,避免输出一个过大的列表。和top的功能类似,但是top会将元素排序并按照降序输出。依据func 中提供的条件,对原始RDD进行分组聚合。不接收参数,返回一个long类型的值,代表RDD中的。的运算符,来归约RDD中的所有元素。返回RDD的前n个元素(随机的)一般是依据括号中的一个。返回的只是一个具体的。
2024-08-23 17:00:37 389
原创 docker-compose.yml配置
YAML 参考了其他多种语言,包括:C语言、Python、Perl,并从 XML、电子邮件的数据格式(RFC 2822)中获得灵感。命名卷可以用于持久化容器内的数据,即使容器被删除或重新创建,数据也不会丢失。1.命名卷存储在Docker管理的宿主机文件系统中,在Docker主机上创建的独立于容器生命周期的持久化存储区域。YAML 文件使用缩进和换行等符号来表示层次结构和序列关系,从而达到编写简单易读的数据文档的目的。不仅定义了服务之间的依赖关系,还影响了服务启动的顺序,被依赖的服务会先于依赖它的服务启动。
2024-08-23 16:56:24 553
原创 docker常用命令
在 Docker 网络中,网关(gateway)是一个特殊的网络设备,用于连接 Docker 容器网络和外部网络。每个 Docker 网络都会有一个网关,负责将容器内部流量路由到外部网络,以及将来自外部网络的流量路由到容器。通常情况下,Docker 容器的默认网关 IP 地址为所属网络的第一个可用 IP 地址。Docker 使用子网 IP 地址来为容器分配 IP 地址。当你创建一个 Docker 网络时,你可以指定一个子网 (subnet),Docker 会从该子网中自动分配 IP 地址给新创建的容器。
2024-08-22 22:25:12 589
原创 SparkContext与SparkSession区别
Spark中的主要接口,代表与Spark集群的连接。在早期版本的Spark中,需要通过SparkContext对象来初始化Spark应用程序。在Spark 2.0之后,推荐使用SparkSession来替代。
2024-08-22 22:19:14 702
原创 python对象的引用和可变性
如果两个变量指代的不可变对象具有相同的值(a == b 为 True),实际上它们指代 的是副本还是同一个对象的别名基本没什么关系,因为不可变对象的值不会变,但有一 个例外。这里说的例外是不可变的集合,如元组和 frozenset:如果不可变集合保存 的是可变元素的引用,那么可变元素的值发生变化后,不可变集合也会随之改变。实际 上,这种情况不是很常见。不可变集合不变的是所含对象的标识。变量保存的是引用,这一点对 Python 编程有很多实际的影响。简单的赋值不创建副本。
2024-08-19 20:43:35 1046
原创 使用可视化工具链接hive
DBeaver是一款免费、开源的数据库管理工具,支持多种关系型数据库,包括MySQL、PostgreSQL、Oracle、SQLite、Microsoft SQL Server,还可以链接hive。它是一款跨平台软件,支持Windows、macOS、Linux等操作系统。DBeaver提供了强大的数据库管理功能,包括数据库连接、SQL编辑器、数据导入导出、数据备份、数据恢复等。同时,它还支持多个数据库连接,可以在一个界面中同时管理多个数据库,方便用户进行跨数据库的操作和管理。
2024-08-15 17:17:19 390
原创 hadoop集成hive的部署方式
在已经安装完hadoop,mysql的基础上可以进行hive的安装之前部署的hadoop版本为3.2.4,mysql版本为8.0.39,详细部署流程。
2024-08-14 22:41:57 502
原创 RDD的概念及Pyspark操作RDD
RDD(弹性分布式数据集)是 PySpark 的基本构建块,它是容错不可变的分布式对象集合。换句话说,RDD 是类似于 Python 中的列表的对象集合,不同之处在于 RDD 是在分散在多个物理服务器上的多个进程上计算的,也称为集群中的节点,而 Python 集合仅在一个进程中存在和处理。一旦你创建了一个 RDD,就不能改变它。RDD是Spark编程中最基本的数据对象, 无论是最初加载的数据集,还是任何中间结果的数据集,或是最终的结果数据集,都是RDD。
2024-08-13 17:16:48 1011
原创 Linux下mysql安装与卸载详细教程(使用yum源安装解析,解决gpg验证问题)
使用官方源进行安装,包含linux下mysql的安装,卸载,以及解决安装过程中的问题。 mysql80-community-release-el7-6.noarch.rpm的目的其实就是安装了mysql官方的yum源,这时候使用yum 进行 mysql的安装,系统会优先从mysql官方源头进行mysql安装。
2024-08-13 10:37:00 921
原创 Linux YUM详细教程一篇全包含(概念,源配置,基础命令,附带图文)
Linux 中YUM的概念与RPM的区别,YUM源配置,基础使用命名,详细讲解附图文,适合新手大胆食用。
2024-08-12 15:57:23 3318
原创 centos虚拟机创建详细步骤(windows下)
windows下centos虚拟机创建与初始化,宿主机与虚拟机共享目录设置,虚拟机配置固定ip,虚拟机与宿主机互通,虚拟机访问公网,详细过程及贴图图
2024-08-07 16:10:50 743
原创 python支付宝小程序接入支付功能详细流程,及前置准备配置
python tornado框架,支付宝小程序接入支付宝支付功能,以及前置商户配置
2019-11-14 16:50:44 1730
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人