王哪跑nn-CSDN博客

原创 Hive - Like 和 RLike/regexp

本文主要讲解了Hive 匹配字符串的方法

2024-05-20 09:00:00 238

原创 Linux - nohup 后台启动命令

nohup主要作用就是可以在后台运行，并可以选择将日志输出到指定文件。如启动jar包，若使用的方式启动程序当窗口关闭的时候程序也停止了，而且日志会直接输出到控制台非常不直观，nohup启动就可以解决这两个问题。

2024-04-30 16:45:00 723 1

原创 Spark SQL - 简介

本文主要介绍了spark sql的基本概念和特点

2024-04-29 16:45:00 1902

原创 Flink - 状态后端

本文主要介绍了flink的状态后端

2024-04-29 09:00:00 1037

原创 Hive - 分区表

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。将一张大表按照某个字段进行划分划分到多个文件夹中每个文件夹内部存储一部分表内容这样的表结构就被称之为分区表分区的好处:1. 方便数据管理2. 加快查询效率不再执行过滤操作。

2024-04-22 09:30:00 1021

原创 Java - 键盘录入Scanner类

Scanner类是一个用于扫描输入文本的新的实用程序。Scanner类是引用数据类型的一种，我们可以使用该类来完成用户键盘录入，获取到录入的数据。

2024-04-13 20:58:27 796

现实生活中，我们常会看到这样的一种集合：IP地址与主机名，身份证号与个人，系统用户名与系统用户对象等，这种一一对应的关系，就叫做映射。Java提供了专门的集合类用来存放这种对象关系的对象，即接口。我们通过查看Map接口描述，发现Map接口下的集合与Collection接口下的集合，它们存储数据的形式不同，如下图。Collection中的集合，元素是孤立存在的（理解为单身），向集合中存储元素采用一个个元素的方式存储。Map中的集合，元素是成对存在的(理解为夫妻)。

2024-04-13 20:45:40 940

原创 Hive - Json 解析

本文主要讲解了hive中json解析的两个函数

2024-04-09 14:00:00 501

原创 SQL语法之数据库多表查询

本文主要讲解了多表连接查询的各种情况

2024-04-09 09:00:00 559

原创 Linux 之定时任务调度器-crond（crontab)服务

本文主要讲解linux定时服务器-crond服务的基本概念

2024-04-08 14:30:00 1306

原创数仓开发之Flume《一》：Flume的概述及安装

主要介绍Flume的架构及安装

2024-04-08 09:00:00 1144

原创大数据 - Hadoop系列《五》- HDFS文件块大小及小文件问题

本文主要讲述了HDFS文件块大小及小文件问题

2024-03-31 16:58:31 2889

原创大数据 - Spark系列《十五》- spark架构

本文主要讲解了spark的架构以及spark job调度全流程

2024-03-31 15:51:00 1290

原创实时数仓项目《二》-利用chatgpt prompt完成基础维表的创建

实时项目开发场景下chatgpt prompt的分享

2024-03-26 14:30:00 1412

原创 Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错

记录碰到的hbase错误

2024-03-26 09:00:00 391

原创 kafka系统的CAP保证

本文主要讲解了分布式系统的cap特性，以及如何保证kafka的一致性

2024-03-25 14:30:00 992

原创 IDEA常用快捷键

本文主要讲解了idea的常用快捷键

2024-03-25 09:00:00 140

原创大数据 - Spark系列《十四》- spark集群部署模式

本文详细讲解了spark集群的三种部署模式

2024-03-17 21:00:01 1033

原创实时数仓项目《一》-实时数仓架构

本文主要基于实时数仓的常见需求阐述了数仓的架构

2024-03-17 18:05:09 1083

原创大数据 - HBase《一》- Hbase基本概念

主要讲解了一下Hbase的基本概念、数据模型和架构模型

2024-03-13 18:05:56 1421

原创大数据 - Spark系列《十三》- spark调度流程(运行过程)

本文细致讲解了一下spark调度流程和job执行的关键步骤

2024-03-11 21:39:51 1266

原创大数据 - Spark系列《十二》- 名词术语理解

本文主要讲解spark一下常用术语及常问面试题总结

2024-03-11 09:00:00 936

原创 Intellij IDEA运行报Command line is too long的解决办法

找到项目下的.idea/workspace.xml。运行任何程序都运行不了。

2024-02-26 09:30:00 349

原创大数据 - Spark系列《十一》- Spark累加器详解

累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后，传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据返回到Driver端进行聚合操作 , 返回最终结果数据。

2024-02-23 20:05:17 1142 2

原创大数据 - Spark系列《十》- rdd缓存详解

在这篇关于RDD缓存的博客中，我们将深入探讨Apache Spark中RDD的缓存机制。我们将讨论RDD缓存的原理、使用方法以及在Spark作业中的实际应用。通过本文，读者将了解如何使用RDD缓存提高Spark作业的性能和效率，以及避免在重复计算中浪费资源的情况。

2024-02-23 13:48:49 1116

原创探究网络工具nc（netcat）的使用方法及安装步骤

本文介绍了Netcat的基本使用方法，包括端口监听、端口扫描和文件传输等。接着讲解了在Linux系统上安装Netcat的两种方法：使用包管理工具安装和从源代码构建安装。最后，通过实时数据处理的场景，展示了Netcat在Flink程序中的使用，包括安装Netcat、启动Netcat服务器、编写Flink程序以及运行Flink程序等步骤。

2024-02-21 17:53:20 1145

原创大数据 - Spark系列《九》- 广播变量

广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点，然后探讨了其使用场景，并详细讲解了创建、访问和销毁广播变量的方法。此外，还分析了不适用广播变量的问题。最后，文章深入解释了广播变量的分发和读取机制，包括创建原理和读取原理。通过本文的学习，读者将全面了解广播变量在Spark中的应用和实现机制。

2024-02-21 08:00:00 1142

原创大数据 - Spark系列《八》- 闭包引用

本文将深入探讨闭包引用的原理和应用。首先，我们将介绍闭包引用的概念及其副本的形成机制。随后，通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来，我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后，我们会总结闭包引用的注意事项，包括序列化检查和“副本”数量的影响。

2024-02-20 11:36:31 1799 5

原创解析Scala中HashMap插入数据的常见错误及修正方法

hashmap报错解决

2024-02-20 10:00:00 417

原创大数据 - Spark系列《七》- 分区器详解

本文将深入探讨Apache Spark 中的分区器。首先，我们将介绍什么是分区器以及它在Spark中的作用。然后，我们将讨论RDD之间的依赖关系，包括窄依赖和宽依赖，以帮助读者更好地理解数据的分布和计算模型。接着，我们将探讨在何种情况下需要使用分区器，并介绍内置的两种常用分区器：HashPartitioner（哈希分区器）和RangePartitioner（范围分区器）。最后，我们将深入研究如何自定义分区器，以满足特定的业务需求

2024-02-19 13:30:12 1392

原创大数据 - Spark系列《六》- RDD详解

本文将深入探讨RDD（弹性分布式数据集）属性和分区。我们将首先介绍RDD的属性，包括分区列表、分区计算逻辑、RDD之间的依赖关系等。接着，我们将详细讨论RDD分区的不同类型，包括原始RDD（从集合、文件、数据库等创建的）和由转换算子生成的RDD。此外，我们将提供一些实例，解释distinct、union、join等操作对分区的影响，并讨论repartition和coalesce方法的作用。最后，我们还将探讨groupBy操作可能不引发Shuffle的情况。

2024-02-19 11:23:48 1179