自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 Spark SQL函数定义

SQL函数分类可以分为UDF,UDAF,UDTF,本文介绍了spark原生自定义UDF函数,Pandas的UDF函数,基于Arrow完成Pandas DataFrame和Spark DataFrame互转,基于Pandas完成自定义UDF函数,UDAF函数

2024-01-17 09:34:35 1205 1

原创 结构化流的介绍

数据可以分为有界数据和无界数据,结构化流的数据结构是无界的,介绍了结构化流的编程模型,数据结构,数据源,重点介绍可Spark和Kafka的整合

2024-01-15 16:10:30 1156

原创 Kafka的核心原理

Kafka的核心原理:Topic的分区和副本机制,消息存储机制和查询机制,kafka中生产者数据分发策略,数据不丢失机制,关于kafka的数据积压问题

2024-01-14 19:25:00 1848

原创 Spark的内核调度

本文介绍了Spark的内核调度中的RDD的依赖,DAG有向无环图的形成和Stage的划分,以及Stage内部流程,还有Spark Shuffle的发展历程Hash Shuffle和Sort Shuffle,还包含了Job的调度流程,以及Spark RDD的并行度

2024-01-12 21:14:51 1188 2

原创 Kafka的简介及架构

消息队列是指数据在一个容器中,从容器中一端传递到另一端过程;Kafka是一款消息队列中间件产品,来源于领英公司,后期贡献给了Apache,目前是Apache旗下的顶级开源项目,采用语言是Scala;本文介绍了Kafka的的基本架构,以及Kafka使用中的常用shell命令,以及Kafka的Python API的操作

2024-01-11 22:32:09 2483 3

原创 DataFrame详解

DataFrame详解:清洗相关的API有去重API: dropDupilcates,删除缺失值API: dropna,替换缺失值API: fillna;Spark SQL的Shuffle分区设置,直接修改spark的配置文件,在客户端通过指令submit命令提交的时候动态设置shuffle的分区数量,在代码中设置;将数据写出主要有两种操作,将数据写出本地文件,将数据写出到数据库

2024-01-09 21:52:33 950

原创 DataFrame相关的API

操作DataFrame一般有两种操作方案:一种为DSL方式,一种为SQL方式.SQL方式:通过编写SQL语句完成统计分析操作,DSL操作:特定领域语言,使用DataFrame特有的API完成计算,也就是代码形式,本文还总结了DSL相关的API,对Spark SQL的综合应用作了基础的演示,包含了SQL方式,以及DSL方式

2024-01-08 16:26:27 1034

原创 PySpark-Spark SQL基本介绍

Spark SQL是Spark多种组件中其中一个,主要是用于处理大规模的结构化数据,本文阐述了Spark SQL的特点以及对比了Spark SQL和Hive SQL的异同,详细介绍了Spark SQL的数据结构DataFrame,包括DataFrame的三种构建方式,通过RDD构建DataFrame,通过内部初始化数据得到DataFrame,通过读取外部文件得到DataFrame

2024-01-07 22:27:54 1854

原创 PySpark之RDD的持久化

本文介绍了PySpark的RDD的持久化方案缓存操作和checkpoint检查点,详细介绍了缓存操作和checkpoint检查点的基础知识,详细对比了两种方案的差别,以及总结了两种方案在实际工作中的应用

2024-01-06 22:03:32 1053

原创 Hive查询之函数(二)

主要演示了Hive函数之炸裂函数,收集函数,开窗函数的实际应用,尤其对大数据常用函数开窗函数进行了重点演示

2023-11-21 19:38:48 174

原创 Hive查询之函数(一)

本篇介绍了Hive函数的分类以及Hive函数之复杂类型函数,字符串函数,日期时间函数,数学函数,条件函数,类型转换函数,数学脱敏函数以及加密函数

2023-11-16 22:22:49 262

原创 Hive查询之常用语法

本文总结了Hive的查询操作,可以分为基础查询(单表查询),多表查询,抽样查询,正则模糊查询,union联合查询;还介绍了hive的排序,CTE表达式,以及Hive的内置虚拟列

2023-11-15 19:51:48 342

原创 Linux基础之--Linux命令

本文补全了Linux除基础命令外其它的常用命令,包括帮助手册,用户和用户组基本操作,修改权限方式,常用的快捷键,系统命令包括软件的安装,systemctl服务软连接与硬链接,日期时区的表达;域名解析,网络编程;客户算上传与下载;压缩与加压缩命令

2023-11-14 19:46:09 227

原创 Linux基础之--基础Linux命令

Linux目录结构,Linux四大基础命令及命令格式,Linux常用的其他基础命令;网络编程三要素及SSH原理;vi/vim编辑器的三种工作模式,vi操作文件三大步,vi其他命令

2023-11-13 17:53:52 260

原创 linux基础之虚拟机及系统的安装

本文简介了linux系统以及在虚拟机的安装以及centos系统的安装给了详细的教程

2023-11-13 17:01:29 29

原创 Hive复杂类型之 array struct map

本文简单介绍了Hive的Serde机制和Hive中的复杂类型:array类型,struct类型,map类型,以及这三种类型的创建表,复杂类型的应用

2023-11-13 11:36:48 256

原创 Hive中分区表与分桶表的操作

本文介绍了分区表创建,加载数据,添加分区,删除分区,修改分区名,查看所有分区,同步/修复分区;分桶表的原理,分桶表的创建,排序,数据加载;分区分桶表的区别及分区分桶表的优点

2023-11-12 22:31:26 149 1

原创 hive内部表与外部表的操作

本文介绍了Hive表的分类有内部表与外部表,以及内部表与外部表的基本操作,创建表,修改表,默认分隔符,快速映射表,数据的发导入与导出,文件数据,还有Hive的shell命令

2023-11-12 20:15:38 72

原创 Hadoop架构及Hive环境准备

本文介绍了分布式和集群得概念,详解Hadoop的架构:HDFS,MapRduce,YARN,以及Hadoop集群的启动,同时介绍了Hive环境的准备,启动hive服务和连接hive服务

2023-11-10 17:23:20 50

原创 Hive基础操作

本文介绍包含了三个方面的内容:一是hive的基础操作,包含了hive的mapreduce的关系,hive的流程,hive的服务操作以及hive与客户端的连接,hive数据库的操作;而是元数据的概念,以及元数据存储的三种模式;三是对比了数据库与数据仓库的区别

2023-11-10 12:03:47 58 1

原创 shell编程

shell编程的简介;shell编程的变量可以分为用户变量,环境变量可特殊变量;在Bash中,变量的默认数据类型都是字符串;shell命令和shell脚本的入门

2023-11-07 21:37:30 35

原创 MySQL表约束和查询操作

mysql库中对表的操作,表中字段的操作以及表中记录的操作;表的约束可以分为主键约束,主键自增,非空约束,唯一约束和默认约束

2023-11-01 08:50:47 39 1

原创 MySQL多表查询

多表查询的本质是把多个表通过主外键关联关系连接(join)合并成一个大表,再去查询,多表查询的分类可以分为连接查询,子查询,自连接;本文还拓展了SQL底层的执行顺序,以及MySQL8的新功能开窗函数.

2023-10-29 16:17:56 31 1

原创 MySQL外键与外键约束

在从表(多方)创建一个字段,引用主表(一方)的主键,对应的这个字段就是外键,外键约束就是限制从表插入,限制主表删除

2023-10-29 11:03:56 78 1

原创 MySQL单表查询

MySQL单表查询总结:基础查询,条件查询,聚合查询,分组查询,分页查询;快速复制表结构和数据

2023-10-28 22:46:13 58 1

原创 MySQL的入门

数据库的简介,关系型数据库SQL的规范以及通用语法,使用命令连接MySQL数据库,以及MySQL数据库的使用

2023-10-28 19:59:40 23 1

原创 web服务器的优化

python中web服务器优化处理图片,音频等的html资源,局域网ip的简介

2023-10-18 21:35:30 24 1

原创 文件的操作

文件的相对路径和绝对路径,文件的打开,关闭,读,写操作以及文件的备份

2023-10-18 21:21:18 21 1

原创 HTTP协议HTML页面web服务器

HTML页面及各类名词解释,web服务器及搭建简单的web服务器

2023-10-17 21:52:53 75

原创 正则表达式-匹配

正则表达式概念及匹配方式,正则表达式的匹配字符,正则表达式的标志位以及正则表达式的贪婪模式和非贪婪模式

2023-10-15 22:02:26 38 1

原创 函数的进阶

函数的多个返回值,函数参数分类

2023-10-10 17:01:40 16 1

原创 元组和字符串

定义空字符串:字符串名=str() 字符串名='' 或者 字符串名="" 或者 字符串名='''''' 或者 字符串名=""""""定义非空字符串:字符串名='内容' 或者 字符串名="内容" 或者 字符串名='''内容''' 或者 字符串名="""内容"""

2023-10-07 12:43:56 30 1

原创 序列和集合和字典

序列的定义及特点;集合的定义特点及常用操作;字典的定义,字典的key及特点,字典的常用操作;字典和集合的遍历

2023-10-07 11:10:45 47 1

原创 数据容器-列表

数据容器的定义;方法的函数的对比;列表的定义及列表的索引,增删改查;列表的遍历

2023-10-04 16:29:29 32 1

原创 函数基础知识

函数定义的通用格式 、函数必须先定义再调用、全局变量和局部变量区别

2023-10-03 20:10:06 28

原创 while循环和for循环

while循环基础步骤,while循环基础格式,while无限循环

2023-10-02 21:04:58 51 1

原创 input函数以及判断语句

format格式化输出格式: print(f"...{变量或者表达式}...")

2023-10-01 20:17:03 95

原创 python基础语法

python的基础语法包含字面量,注释,变量,print函数,type函数,以及数据类型的转换,标识符,关键字,运算符,字符串,相关的定义总结,及示例展示

2023-09-30 17:21:00 63

原创 大数据导论&编程语

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 从大数据的导论,大数据学习相关软件,计算机组成,编程语言六个方面简单了解大数据入门的一些基本认识。

2023-09-29 11:22:59 48

大数据导论&编程语言.md

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。 大数据的价值体现在以下几个方面: (1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销; (2)做小而美模式的中小微企业可以利用大数据做服务转型; (3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值 本文对大数据入门的基本概念,以及辅助学习大数据的常用软件作了简单的总结,内容主要分为大数据导论,大数据学习相关软件,计算机组成,编程语言四个部分

2023-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除