MSJ3917-CSDN博客

原创 Spark SQL基础

分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])分析函数大致可以分为以下三类:1- 聚合函数:sum() count() avg() max() min()自定义函数流程:第一步:在PySpark中创建一个Python的函数,在这个函数中书写自定义的功能逻辑代码即可第二步:将Python函数注册到Spark SQL中。

2024-01-10 20:19:39 1354

原创 Spark SQL基础知识

去重API:dropDuplicates总结:用来删除重复数据,如果没有指定参数subset,那么要比对行中的所有字段内容,如果全部相同,就认为是重复数据,会被删除;如果有指定参数subset,那么只比对subset中指定的字段范围,如果指定不存在的字段会报错.删除缺失值的API:dropna总结:1- 如果不传递任何参数,只要有任意一个字段值为null,那么就删除整行数据2-如果只指定了subset,那么空值的检查,就只会限定在subset指定的范围内。

2024-01-09 20:12:22 1594

原创 Saprk SQL基础知识

DataFrame表示的是一个二维的表,二维表,必然存在行,列等表结构描述信息.表结构描述信息(元数据Schema) :StructType对象字段:StructField对象,可以描述字段名称,字段数据类型,是否可以为空行:Row对象列:Column对象,包含字段名称和字段值在一个StructType对象下,由多个StructField组成,构建成一个完整的元数据信息。

2024-01-07 20:53:33 1322 1

原创 Spark Core进阶知识

Spark内核调度的任务:如何构建DAG执行流程图如何划分Stage截断Driver底层是如何运转确定需要构建多少分区(线程)Spark内核调度的目的:尽可能用最少的资源高效地完成任务计算。

2024-01-06 20:59:45 1219 1

原创 Spark Core基础知识

RDD:英文全称Resilient Distributed Dataset,叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变,可分区,里面的元素可并行计算的集合.Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算Dataset数据集:一个用于存放数据的集合。

2024-01-04 21:17:21 1419 1

原创 Spark基础二

textFile(path):读取外部数据源,支持本地文件系统和hdfs文件系统.

2024-01-03 20:25:28 718 1

原创 Spark基础知识

Apache Spark是用于大数据处理的统一分析引擎;

2024-01-02 20:02:17 1099 1

原创 pandas应用和学习

1.Python在数据处理上有代码灵活,开发快速的特点.尤其是Python的Pandas包,无论是在数据分析领域还是在大数据开发场景都具有显著优势:①Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗,处理以及分析.②Pandas和Spark中很多功能都类似,甚至使用方法都相同.建议两者可以一起学习.③Pandas在数据开发的流程中的应用场景。

2023-12-30 21:33:52 1107 1

原创 PyMySQL模块介绍及使用

PyMySQL是Python中用来操作MySQL数据库的一个第三方模块.作用:在程序中利用SQL操作MySQL数据库,进行数据库的增,删,改,查操作.

2023-12-30 20:48:59 477 1

原创 python进阶之多进程多线程

1)进程是操作系统进行资源分配的基本单位2)进程可以有一个或多个子进程3)最原始的父进程是操作系统提供的1)线程是CPU进行调度的基本单位2)线程可以有一个或多个子线程3)线程是进程主动创建出来的,创建第一个子线程的时候才会出现主线程1-多进程:计算机分配资源的最小单位2-多线程:CPU进行调度的最小单位3-线程不能独立存在,必须依存于进程中4-多进程中,多个子进程和主进程之间,不会共享全局变量5-多线程中,多个子线程和主线程之间,会共享全局变量。

2023-12-29 12:22:31 1024 1

原创 python进阶之闭包装饰器

闭包装饰器:对旧功能/代码,在最小源代码改造情况下进行功能升级.装饰器也叫[语法糖]比如:例如我们需要对数据库的操作,额外增加事务的处理.就可以用到装饰器来解决.例子:# 定义装饰器，用来对旧代码升级/加强print("代码加强【开启事务】")# 调用原始函数print("代码加强【关闭事务】")print("对数据库的增删改查操作")crud()注意: 使用装饰器，我们对原始的crud()方法内部没有做任何的改变。

2023-12-29 11:29:07 900 1

原创 python面向对象的总结

1- 类的命名:大驼峰命名法,所有单词首字母都大写2-所有类的顶级父类,默认是object,可写可不写1-常用__init__,__str__,__del__2-命名前后都需要有下划线3-__init__:对类的实例对象进行初始化操作,或者对一些公共资源进行初始化,例如:文件打开,数据库的连接.4-__str__:一般用来对类的实例对象进行格式化输出,返回值类型必须是string.打印对象,默认打印的是内存地址值.

2023-12-25 18:09:46 422 1

原创 python基础

包->含有__init__.py文件的文件夹模块->py文件类->class[面向对象学习]函数(方法)->def以上均不能以数字开头,也不能和python内置的一切重名。

2023-12-24 20:01:35 380

原创 python容器数据类型

定义:元组变量名=(数据1,数据2,...)访问:元组变量名[位置标号]注意:如果定义的元组只有一个数据,那么这个数据后面一定要添加逗号,否则数据类型为唯一的这个数据的数据类型.特点:符号为大括号,数据以键值对形式出现,各个键值对之间用逗号隔开注意事项:一般称冒号前面的为键(key)，简称k；冒号后面的为值(value)，简称v；key:value就是我们通常说的键值对了。2.字典的常用操作1).字典[键]=值:键不存在,会添加键值对;键存在,会修改键对的值。

2023-12-21 21:36:39 892

原创 kettle从excel到mysql中文乱码解决办法

2.在mycnf文件中加入以下代码,注意:[mysqld]原文件有不用重复添加,也可以打开自己的文件相关路径\phpstudy_pro\Extensions\MySQL5.7.26/my.ini查看mysql代码插入。4.查看mysql编码格式:show VARIABLES like '%character%';1.利用Notepad++打开linux文件/etc/mycnf。excel用kettle导入到mysql中文乱码解决办法。注意建库也要设置编码。

2023-12-13 21:47:00 805 1

原创 4个聚合增强函数介绍

1.1.就是通过指定的多个维度进行查询的. 即: 你写了哪些维度, 它就按照哪些维度进行聚合计算.1.2.细节: 维度要用括起来, 如果是1个维度, 小括号可以省略, 但是建议写上.1.3.grouping sets函数在hive中和 presto中的写法略有不同。

2023-12-13 21:45:53 1017 1

原创 hive调优相关操作

hive参数设置范围:配置文件参数>命令行参数>set参数声明hive参数设置优先级:set参数声明>命令行参数>配置文件参数注意:一般执行SQL需要指定的参数,都通过set参数声明,因为它属于临时设置,断开就失效了。

2023-11-17 21:32:21 89 1

原创 hive函数有关总结

from_unixtime: 把unix时间戳转换为日期格式的时间注意: 如果传入的参数是0,获取的是时间原点1970-01-01 00:00:00。聚合开窗函数: 原来学的聚合函数(max,min,sum,count,avg)配合over()使用的时候,这些聚合函数也可以叫开窗函数。if(参数1,参数2,参数3): 如果参数1结果为true,就执行参数2内容,否则执行参数3的内容。nvl(数据,参数2): 如果数据不为空打印数据,为空null打印第二个参数常用。

2023-11-15 22:09:02 117

原创 hive查询相关语法思维导图总结

2023-11-14 20:08:47 177 1

原创分区表和分桶表以及各种复杂数据类型自我总结

多级分区:create table 表名(字段名字段类型...) partitioned by (分区字段1 字段类型1,分区字段2 字段类型2) row format delimited fields terminated by '分隔符';一级分区:create table 表名(字段名字段类型...) partitioned by (分区字段字段类型) row format delimited fields terminated by '分隔符';--本质上是建造一个目录。

2023-11-12 20:44:36 79 1

原创内外部表操作,hive数据导出和导入的操作梳理

-bin/hive -f export.sql > /home/hadoop/export4/export4.txt --脚本输出。--从hdfs一个表导入到另一个表,原数据会消失,同时覆盖新表中数据。

2023-11-11 20:53:39 163 1

原创 linuxday01

tcp:传输控制协议(Transmission Control Protocol)是一种面向连接的,可靠的,基于字节流的传输层通信协议。udp:用户数据报协议(User Datagram Protocol)是一种无连接的,不可靠的,之间发送封装的IP数据包的通信协议。Secure Shell:(安全外壳协议,简称SSH)是一种加密的网络传输协议,可在不安全的网络中为网络服务提供安全的传输环境。端口:应用程序的入口,但是往往要先试用端口号来找到对应的端口,再根据端口连接上对应的进程。

2023-11-04 22:23:05 51

MSJ3917的博客