自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 Pyspark dataframe基本内置方法(5)

pyspark 中对于pyspark sql dataframe的操作方式详细使用方式以及演示

2024-09-20 10:15:57 1303

原创 Pyspark dataframe基本内置方法(4)

RDD 只是抽象意义的数据集合,分区内部并不会存储具体的数据,只会存储它在该 RDD 中的 index,通过该 RDD 的 ID 和分区的 index 可以唯一确定对应数据块的编号,然后通过底层存储层的接口提取到数据进行处理。在物理存储中,每个分区指向一个存储在内存或者硬盘中的数据块 (Block) ,其实这个数据块就是每个 task 计算出的数据块,它们可以分布在不同的节点上。返回一个新的DataFrame,其中包含此DataFrame中的行,但不包含另一个DataFrame中。接受sql表达式并执行。

2024-09-20 10:12:11 770

原创 Pyspark dataframe基本内置方法(3)

处理大表join时,spark默认策略可能不是最优解,通过hint 可以设置join类型。其他hints: merge,shuffle,coalesce。intersectAll 获取交集(保留重复项)注意聚合方式可能会影响show出来的列。

2024-09-11 14:48:31 513

原创 Pyspark dataframe基本内置方法(2)

返回一个新的DataFrame,其中包含此DataFrame中的行,但不包含在另一个DataFrame中,同时保留重复项。dropna() 参数可选项 all,全部为空的行,any只要存在null行就删掉,默认为any。fillna() 别名 na.fill() ,如果列的类型不符合填充的类型,则这列不填补。df1,df2,就是df1剔除(df1与df2交集)。返回数量,平均值,标准方差,最小值,最大值(字符串也可统计)。创建的全局临时视图名已经存在的,将会进行替换操作不会报错。

2024-09-11 09:46:33 737

原创 Pyspark dataframe基本内置方法(1)

Checkpoint是一种重量级的使用,也就是RDD的重新计算成本很高的时候,我们采用Checkpoint比较合适,或者数据量很大的时候,采用Checkpoint比较合适。如果数据量小,或者RDD重新计算也是非常快的,直接使用缓存即可。(aggregate)函数用于对 DataFrame 进行聚合操作。它允许你在一个或多个列上应用一个或多个聚合函数,并返回计算后的结果。当任务提交到集群的时候collect()操作是用来将所有结点中的数据收集到dirver节点,数据量很大慎用防止dirver炸掉。

2024-09-05 17:24:29 767

原创 Linux下使用crontab配置定时任务

为Linux下的计划任务程序,对应的服务为crond。crond是一个守护进程,每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。Linux系统上面原本就有非常多的计划性工作,故而,这个系统服务是默认启动的。使用#注释任务,或者直接删除,当你注释时crontab -l 也会显示被注释的任务。创建定时任务测试文件。

2024-09-05 17:22:23 580

原创 postgresql简单数据备份

PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统(RDBMS)python链接postgresql使用的包是psycopg2,免密操作后不需要 用户密码。

2024-09-03 16:57:16 612

原创 Pyspark中catalog的作用与常用方法

Catalog是Spark中用于管理元数据信息的接口,这些元数据可能包括库、内部或外部表、函数、表列及临时视图等。总的来说,PySpark Catalogs是PySpark框架中用于管理和查询元数据的重要组件,它使得Python用户能够更有效地利用PySpark进行大数据处理和分析。

2024-09-03 16:54:25 1272

原创 Python sys.path与-m参数的作用

python中sys.path的作用与-m模块话运行的意义,详细验证过程与结论

2024-08-31 17:49:56 807

原创 Hive的存储格式

Hive支持的存储数的格式主要有:TEXTFILE(默认格式) 、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式,建表时没有指定文件格式,则使用TEXTFILE,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;sequencefile,rcfile,orcfile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从表中用insert导入sequencefile、 rcfile、orcfile表中。

2024-08-30 21:25:59 1078

原创 Pyspark中的ROW对象使用

在PySpark中,Row对象是DataFrame的基本组成单元,它封装了DataFrame中的每一行数据。每行数据以Row对象的形式存在,其中包含了该行的各个字段值。这些字段值可以像属性一样被访问,使得处理数据变得更加直观和方便。Row对象的创建和使用,使得PySpark能够以更加结构化的方式处理数据,提高了数据处理效率和便利性。

2024-08-30 16:42:15 923

原创 python风格对象的实现方法

不要为了满足过度设计的接口契约和让编译器开心,而去实现不需要的方法,我们要遵守 KISS 原则.

2024-08-29 23:09:45 1392

原创 使用python创建kafka的topic

Kafka的介绍,以及使用python创建kafka的topic

2024-08-29 11:27:42 673

原创 hive 内部表与外部表

hive 是基于hadoop的数据仓库工具,本身并不存储数据,hive会把数据存储到 hdfs中,利用自带的sql解析引擎,把sql 语句转换成 mr job(mapreduce的任务) ,在 hadoop 的 mapreduce 引擎上对数据进行查询、统计和分析。对比项内部表外部表Hive 管理范围建表语句元数据、实际的表数据元数据建表语句不需要 external 关键字修饰需要 external 关键字修饰drop 表后果删除元数据和实际的表数据只删除元数据,实际的表数据保留。

2024-08-28 21:14:08 250

原创 hive中的分区

Hive分区的概念与传统关系型数据库分区不一样。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:因为Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并非一个实际字段。因此能够这样理解,当在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录上添加数据文件。

2024-08-28 21:04:12 944 1

原创 Pyspark中RDD常用方法

的转化操作,对数据集中的每一个元素,应用一个具名/匿名 函数进行才处理;一个或多个map可以异步进行,因为它们不会产生副作用。输出一个由RDD中所有元素组成的列表 一般只在小规模数据中使用,避免输出一个过大的列表。和top的功能类似,但是top会将元素排序并按照降序输出。依据func 中提供的条件,对原始RDD进行分组聚合。不接收参数,返回一个long类型的值,代表RDD中的。的运算符,来归约RDD中的所有元素。返回RDD的前n个元素(随机的)一般是依据括号中的一个。返回的只是一个具体的。

2024-08-23 17:00:37 389

原创 docker-compose.yml配置

YAML 参考了其他多种语言,包括:C语言、Python、Perl,并从 XML、电子邮件的数据格式(RFC 2822)中获得灵感。命名卷可以用于持久化容器内的数据,即使容器被删除或重新创建,数据也不会丢失。1.命名卷存储在Docker管理的宿主机文件系统中,在Docker主机上创建的独立于容器生命周期的持久化存储区域。YAML 文件使用缩进和换行等符号来表示层次结构和序列关系,从而达到编写简单易读的数据文档的目的。不仅定义了服务之间的依赖关系,还影响了服务启动的顺序,被依赖的服务会先于依赖它的服务启动。

2024-08-23 16:56:24 553

原创 docker常用命令

在 Docker 网络中,网关(gateway)是一个特殊的网络设备,用于连接 Docker 容器网络和外部网络。每个 Docker 网络都会有一个网关,负责将容器内部流量路由到外部网络,以及将来自外部网络的流量路由到容器。通常情况下,Docker 容器的默认网关 IP 地址为所属网络的第一个可用 IP 地址。Docker 使用子网 IP 地址来为容器分配 IP 地址。当你创建一个 Docker 网络时,你可以指定一个子网 (subnet),Docker 会从该子网中自动分配 IP 地址给新创建的容器。

2024-08-22 22:25:12 589

原创 SparkContext与SparkSession区别

Spark中的主要接口,代表与Spark集群的连接。在早期版本的Spark中,需要通过SparkContext对象来初始化Spark应用程序。在Spark 2.0之后,推荐使用SparkSession来替代。

2024-08-22 22:19:14 702

原创 Hadoop从0到1搭建

hadoop从0到1搭建,内涵常用组件,逐步演示。

2024-08-20 14:20:53 189

原创 hadoop集成spark(spark on yarn)

在hadoop搭建完成的前提下,集成spark,spark on yarn模式运行。

2024-08-20 12:27:59 447

原创 python对象的引用和可变性

如果两个变量指代的不可变对象具有相同的值(a == b 为 True),实际上它们指代 的是副本还是同一个对象的别名基本没什么关系,因为不可变对象的值不会变,但有一 个例外。这里说的例外是不可变的集合,如元组和 frozenset:如果不可变集合保存 的是可变元素的引用,那么可变元素的值发生变化后,不可变集合也会随之改变。实际 上,这种情况不是很常见。不可变集合不变的是所含对象的标识。变量保存的是引用,这一点对 Python 编程有很多实际的影响。简单的赋值不创建副本。

2024-08-19 20:43:35 1046

原创 Linux下安装python与pip源配置(详细教程)

linux下安装python的详细过程,以及pip源配置的方式,附图文。

2024-08-19 16:45:14 1494

原创 使用可视化工具链接hive

DBeaver是一款免费、开源的数据库管理工具,支持多种关系型数据库,包括MySQL、PostgreSQL、Oracle、SQLite、Microsoft SQL Server,还可以链接hive。它是一款跨平台软件,支持Windows、macOS、Linux等操作系统。DBeaver提供了强大的数据库管理功能,包括数据库连接、SQL编辑器、数据导入导出、数据备份、数据恢复等。同时,它还支持多个数据库连接,可以在一个界面中同时管理多个数据库,方便用户进行跨数据库的操作和管理。

2024-08-15 17:17:19 390

原创 Linux下的Hadoop分布式安装详解

Linux下分布式部署hadoop全流程详细记录附带图文。

2024-08-15 14:57:09 1130

原创 Pyspark中RDD的基本操作

pyspark中rdd基本操作及演示

2024-08-14 23:16:18 372

原创 hadoop集成hive的部署方式

在已经安装完hadoop,mysql的基础上可以进行hive的安装之前部署的hadoop版本为3.2.4,mysql版本为8.0.39,详细部署流程。

2024-08-14 22:41:57 502

原创 RDD的概念及Pyspark操作RDD

RDD(弹性分布式数据集)是 PySpark 的基本构建块,它是容错不可变的分布式对象集合。换句话说,RDD 是类似于 Python 中的列表的对象集合,不同之处在于 RDD 是在分散在多个物理服务器上的多个进程上计算的,也称为集群中的节点,而 Python 集合仅在一个进程中存在和处理。一旦你创建了一个 RDD,就不能改变它。RDD是Spark编程中最基本的数据对象, 无论是最初加载的数据集,还是任何中间结果的数据集,或是最终的结果数据集,都是RDD。

2024-08-13 17:16:48 1011

原创 Linux下mysql安装与卸载详细教程(使用yum源安装解析,解决gpg验证问题)

使用官方源进行安装,包含linux下mysql的安装,卸载,以及解决安装过程中的问题。 mysql80-community-release-el7-6.noarch.rpm的目的其实就是安装了mysql官方的yum源,这时候使用yum 进行 mysql的安装,系统会优先从mysql官方源头进行mysql安装。

2024-08-13 10:37:00 921

原创 PySpark操作DataFrame常用方法

python使用pyspark操作dataframe的常用方法

2024-08-12 17:01:47 1246 1

原创 Linux YUM详细教程一篇全包含(概念,源配置,基础命令,附带图文)

Linux 中YUM的概念与RPM的区别,YUM源配置,基础使用命名,详细讲解附图文,适合新手大胆食用。

2024-08-12 15:57:23 3318

原创 HDFS常用操作命令(附详细演示截图)

hdfs操作,基础操作,附带配详演示截图。

2024-08-08 16:36:06 723

原创 centos虚拟机创建详细步骤(windows下)

windows下centos虚拟机创建与初始化,宿主机与虚拟机共享目录设置,虚拟机配置固定ip,虚拟机与宿主机互通,虚拟机访问公网,详细过程及贴图图

2024-08-07 16:10:50 743

原创 Linux下NFS共享目录配置详解

linux 下配置NFS详细步骤

2024-08-07 09:30:54 1106

原创 Linux自定义系统服务

linux自定义服务,把你的任务变为系统服务

2024-08-06 16:54:04 428

原创 python支付宝小程序接入支付功能详细流程,及前置准备配置

python tornado框架,支付宝小程序接入支付宝支付功能,以及前置商户配置

2019-11-14 16:50:44 1730

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除