自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 收藏
  • 关注

原创 Hive - Like 和 RLike/regexp

本文主要讲解了Hive 匹配字符串的方法

2024-05-20 09:00:00 238

原创 Linux - nohup 后台启动命令

nohup主要作用就是可以在后台运行,并可以选择将日志输出到指定文件。如启动jar包,若使用的方式启动程序当窗口关闭的时候程序也停止了,而且日志会直接输出到控制台非常不直观,nohup启动就可以解决这两个问题。

2024-04-30 16:45:00 723 1

原创 大数据 - Doris系列《四》- Doris常用函数

本文主要介绍doris的常用函数

2024-04-30 08:30:00 414

原创 Spark SQL - 简介

本文主要介绍了spark sql的基本概念和特点

2024-04-29 16:45:00 1902

原创 Flink - 状态后端

本文主要介绍了flink的状态后端

2024-04-29 09:00:00 1037

原创 Hive - 分区表

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多。将一张大表按照某个字段进行划分 划分到多个文件夹中每个文件夹内部存储一部分表内容这样的表结构就被称之为分区表分区的好处:1. 方便数据管理2. 加快查询效率 不再执行过滤操作。

2024-04-22 09:30:00 1021

原创 Java - 键盘录入Scanner类

Scanner类是一个用于扫描输入文本的新的实用程序。Scanner类是引用数据类型的一种,我们可以使用该类来完成用户键盘录入,获取到录入的数据。

2024-04-13 20:58:27 796

原创 Java-Map集合

现实生活中,我们常会看到这样的一种集合:IP地址与主机名,身份证号与个人,系统用户名与系统用户对象等,这种一一对应的关系,就叫做映射。Java提供了专门的集合类用来存放这种对象关系的对象,即接口。我们通过查看Map接口描述,发现Map接口下的集合与Collection接口下的集合,它们存储数据的形式不同,如下图。Collection中的集合,元素是孤立存在的(理解为单身),向集合中存储元素采用一个个元素的方式存储。Map中的集合,元素是成对存在的(理解为夫妻)。

2024-04-13 20:45:40 940

原创 Hive - Json 解析

本文主要讲解了hive中json解析的两个函数

2024-04-09 14:00:00 501

原创 SQL语法 之 数据库多表查询

本文主要讲解了多表连接查询的各种情况

2024-04-09 09:00:00 559

原创 Linux 之 定时任务调度器-crond(crontab)服务

本文主要讲解linux定时服务器-crond服务的基本概念

2024-04-08 14:30:00 1306

原创 数仓开发之Flume《一》:Flume的概述及安装

主要介绍Flume的架构及安装

2024-04-08 09:00:00 1144

原创 大数据 - Hadoop系列《五》- HDFS文件块大小及小文件问题

本文主要讲述了HDFS文件块大小及小文件问题

2024-03-31 16:58:31 2889

原创 大数据 - Spark系列《十五》- spark架构

本文主要讲解了spark的架构以及spark job调度全流程

2024-03-31 15:51:00 1290

原创 实时数仓项目《二》-利用chatgpt prompt完成基础维表的创建

实时项目开发场景下chatgpt prompt的分享

2024-03-26 14:30:00 1412

原创 Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错

记录碰到的hbase错误

2024-03-26 09:00:00 391

原创 kafka系统的CAP保证

本文主要讲解了分布式系统的cap特性,以及如何保证kafka的一致性

2024-03-25 14:30:00 992

原创 IDEA常用快捷键

本文主要讲解了idea的常用快捷键

2024-03-25 09:00:00 140

原创 大数据 - Spark系列《十四》- spark集群部署模式

本文详细讲解了spark集群的三种部署模式

2024-03-17 21:00:01 1033

原创 实时数仓项目《一》-实时数仓架构

本文主要基于实时数仓的常见需求阐述了数仓的架构

2024-03-17 18:05:09 1083

原创 大数据 - HBase《一》- Hbase基本概念

主要讲解了一下Hbase的基本概念、数据模型和架构模型

2024-03-13 18:05:56 1421

原创 大数据 - Spark系列《十三》- spark调度流程(运行过程)

本文细致讲解了一下spark调度流程和job执行的关键步骤

2024-03-11 21:39:51 1266

原创 大数据 - Spark系列《十二》- 名词术语理解

本文主要讲解spark一下常用术语及常问面试题总结

2024-03-11 09:00:00 936

原创 Intellij IDEA运行报Command line is too long的解决办法

找到项目下的.idea/workspace.xml。运行任何程序都运行不了。

2024-02-26 09:30:00 349

原创 大数据 - Spark系列《十一》- Spark累加器详解

​累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据返回到Driver端进行聚合操作 , 返回最终结果数据。

2024-02-23 20:05:17 1142 2

原创 大数据 - Spark系列《十》- rdd缓存详解

在这篇关于RDD缓存的博客中,我们将深入探讨Apache Spark中RDD的缓存机制。我们将讨论RDD缓存的原理、使用方法以及在Spark作业中的实际应用。通过本文,读者将了解如何使用RDD缓存提高Spark作业的性能和效率,以及避免在重复计算中浪费资源的情况。

2024-02-23 13:48:49 1116

原创 探究网络工具nc(netcat)的使用方法及安装步骤

本文介绍了Netcat的基本使用方法,包括端口监听、端口扫描和文件传输等。接着讲解了在Linux系统上安装Netcat的两种方法:使用包管理工具安装和从源代码构建安装。最后,通过实时数据处理的场景,展示了Netcat在Flink程序中的使用,包括安装Netcat、启动Netcat服务器、编写Flink程序以及运行Flink程序等步骤。

2024-02-21 17:53:20 1145

原创 大数据 - Spark系列《九》- 广播变量

广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点,然后探讨了其使用场景,并详细讲解了创建、访问和销毁广播变量的方法。此外,还分析了不适用广播变量的问题。最后,文章深入解释了广播变量的分发和读取机制,包括创建原理和读取原理。通过本文的学习,读者将全面了解广播变量在Spark中的应用和实现机制。

2024-02-21 08:00:00 1142

原创 大数据 - Spark系列《八》- 闭包引用

本文将深入探讨闭包引用的原理和应用。首先,我们将介绍闭包引用的概念及其副本的形成机制。随后,通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来,我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后,我们会总结闭包引用的注意事项,包括序列化检查和“副本”数量的影响。

2024-02-20 11:36:31 1799 5

原创 解析Scala中HashMap插入数据的常见错误及修正方法

hashmap报错解决

2024-02-20 10:00:00 417

原创 大数据 - Spark系列《七》- 分区器详解

本文将深入探讨Apache Spark 中的分区器。首先,我们将介绍什么是分区器以及它在Spark中的作用。然后,我们将讨论RDD之间的依赖关系,包括窄依赖和宽依赖,以帮助读者更好地理解数据的分布和计算模型。接着,我们将探讨在何种情况下需要使用分区器,并介绍内置的两种常用分区器:HashPartitioner(哈希分区器)和RangePartitioner(范围分区器)。最后,我们将深入研究如何自定义分区器,以满足特定的业务需求

2024-02-19 13:30:12 1392

原创 大数据 - Spark系列《六》- RDD详解

本文将深入探讨RDD(弹性分布式数据集)属性和分区。我们将首先介绍RDD的属性,包括分区列表、分区计算逻辑、RDD之间的依赖关系等。接着,我们将详细讨论RDD分区的不同类型,包括原始RDD(从集合、文件、数据库等创建的)和由转换算子生成的RDD。此外,我们将提供一些实例,解释distinct、union、join等操作对分区的影响,并讨论repartition和coalesce方法的作用。最后,我们还将探讨groupBy操作可能不引发Shuffle的情况。

2024-02-19 11:23:48 1179

原创 大数据 - Spark系列《五》- Spark常用算子

本文主要介绍了spark常用的转换算子和行动算子,并提供了具体的代码实例进行练习

2024-02-08 14:01:54 1685

原创 Bug2- Hive元数据启动报错:主机被阻止因连接错误次数过多

hive元数据启动报错解决

2024-02-08 12:05:35 810

原创 大数据 - Spark系列《四》- Spark分布式运行原理

在本篇博客中,我们将深入探讨 Spark 分布式运行原理、面试题总结以及延伸知识点:关于Spark默认并行度spark.default.parallelism的理解

2024-02-04 17:40:31 1398

原创 大数据 - Spark系列《三》- 加载各种数据源创建RDD

本篇博客将介绍如何在 Spark 中加载不同类型的数据源,介绍加载本地文件、本地集合以及 MySQL 数据库的过程。

2024-02-04 15:48:16 1585 1

原创 Bug1- SQL报错信息-line 8:19 cannot recognize input near ‘<EOF>‘ ‘<EOF>‘ ‘<EOF>‘ in subquery source

SQL报错解决

2024-02-01 19:34:07 621

原创 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置

本文介绍了两种重要的配置方式:Live Templates 和文件模板。Live Templates 是一种快速生成常用代码片段的方法,而文件模板则允许您定义新文件的初始代码结构。通过本文,您将学会如何配置这两种模板,从而加速您的开发流程。

2024-01-31 19:59:50 828

原创 大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进

通过本文,您将了解到Hadoop与Spark的基础知识,并掌握Spark编程的基本流程和实践经验。

2024-01-31 15:23:08 2272 1

原创 大数据-Spark-关于Json数据格式的数据的处理与练习

本文主要联系了在Spark中怎么处理json数据

2024-01-30 20:30:21 581

大数据测试数据-movie.txt

大数据测试数据-movie.txt

2023-12-16

Idea 导入Mysql8.0驱动jar包

Idea 导入Mysql8.0驱动jar包

2023-12-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除