- 博客(115)
- 收藏
- 关注
原创 Linux - nohup 后台启动命令
nohup主要作用就是可以在后台运行,并可以选择将日志输出到指定文件。如启动jar包,若使用的方式启动程序当窗口关闭的时候程序也停止了,而且日志会直接输出到控制台非常不直观,nohup启动就可以解决这两个问题。
2024-04-30 16:45:00 723 1
原创 Hive - 分区表
Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多。将一张大表按照某个字段进行划分 划分到多个文件夹中每个文件夹内部存储一部分表内容这样的表结构就被称之为分区表分区的好处:1. 方便数据管理2. 加快查询效率 不再执行过滤操作。
2024-04-22 09:30:00 1021
原创 Java - 键盘录入Scanner类
Scanner类是一个用于扫描输入文本的新的实用程序。Scanner类是引用数据类型的一种,我们可以使用该类来完成用户键盘录入,获取到录入的数据。
2024-04-13 20:58:27 796
原创 Java-Map集合
现实生活中,我们常会看到这样的一种集合:IP地址与主机名,身份证号与个人,系统用户名与系统用户对象等,这种一一对应的关系,就叫做映射。Java提供了专门的集合类用来存放这种对象关系的对象,即接口。我们通过查看Map接口描述,发现Map接口下的集合与Collection接口下的集合,它们存储数据的形式不同,如下图。Collection中的集合,元素是孤立存在的(理解为单身),向集合中存储元素采用一个个元素的方式存储。Map中的集合,元素是成对存在的(理解为夫妻)。
2024-04-13 20:45:40 940
原创 Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错
记录碰到的hbase错误
2024-03-26 09:00:00 391
原创 Intellij IDEA运行报Command line is too long的解决办法
找到项目下的.idea/workspace.xml。运行任何程序都运行不了。
2024-02-26 09:30:00 349
原创 大数据 - Spark系列《十一》- Spark累加器详解
累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据返回到Driver端进行聚合操作 , 返回最终结果数据。
2024-02-23 20:05:17 1142 2
原创 大数据 - Spark系列《十》- rdd缓存详解
在这篇关于RDD缓存的博客中,我们将深入探讨Apache Spark中RDD的缓存机制。我们将讨论RDD缓存的原理、使用方法以及在Spark作业中的实际应用。通过本文,读者将了解如何使用RDD缓存提高Spark作业的性能和效率,以及避免在重复计算中浪费资源的情况。
2024-02-23 13:48:49 1116
原创 探究网络工具nc(netcat)的使用方法及安装步骤
本文介绍了Netcat的基本使用方法,包括端口监听、端口扫描和文件传输等。接着讲解了在Linux系统上安装Netcat的两种方法:使用包管理工具安装和从源代码构建安装。最后,通过实时数据处理的场景,展示了Netcat在Flink程序中的使用,包括安装Netcat、启动Netcat服务器、编写Flink程序以及运行Flink程序等步骤。
2024-02-21 17:53:20 1145
原创 大数据 - Spark系列《九》- 广播变量
广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点,然后探讨了其使用场景,并详细讲解了创建、访问和销毁广播变量的方法。此外,还分析了不适用广播变量的问题。最后,文章深入解释了广播变量的分发和读取机制,包括创建原理和读取原理。通过本文的学习,读者将全面了解广播变量在Spark中的应用和实现机制。
2024-02-21 08:00:00 1142
原创 大数据 - Spark系列《八》- 闭包引用
本文将深入探讨闭包引用的原理和应用。首先,我们将介绍闭包引用的概念及其副本的形成机制。随后,通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来,我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后,我们会总结闭包引用的注意事项,包括序列化检查和“副本”数量的影响。
2024-02-20 11:36:31 1799 5
原创 大数据 - Spark系列《七》- 分区器详解
本文将深入探讨Apache Spark 中的分区器。首先,我们将介绍什么是分区器以及它在Spark中的作用。然后,我们将讨论RDD之间的依赖关系,包括窄依赖和宽依赖,以帮助读者更好地理解数据的分布和计算模型。接着,我们将探讨在何种情况下需要使用分区器,并介绍内置的两种常用分区器:HashPartitioner(哈希分区器)和RangePartitioner(范围分区器)。最后,我们将深入研究如何自定义分区器,以满足特定的业务需求
2024-02-19 13:30:12 1392
原创 大数据 - Spark系列《六》- RDD详解
本文将深入探讨RDD(弹性分布式数据集)属性和分区。我们将首先介绍RDD的属性,包括分区列表、分区计算逻辑、RDD之间的依赖关系等。接着,我们将详细讨论RDD分区的不同类型,包括原始RDD(从集合、文件、数据库等创建的)和由转换算子生成的RDD。此外,我们将提供一些实例,解释distinct、union、join等操作对分区的影响,并讨论repartition和coalesce方法的作用。最后,我们还将探讨groupBy操作可能不引发Shuffle的情况。
2024-02-19 11:23:48 1179
原创 大数据 - Spark系列《四》- Spark分布式运行原理
在本篇博客中,我们将深入探讨 Spark 分布式运行原理、面试题总结以及延伸知识点:关于Spark默认并行度spark.default.parallelism的理解
2024-02-04 17:40:31 1398
原创 大数据 - Spark系列《三》- 加载各种数据源创建RDD
本篇博客将介绍如何在 Spark 中加载不同类型的数据源,介绍加载本地文件、本地集合以及 MySQL 数据库的过程。
2024-02-04 15:48:16 1585 1
原创 Bug1- SQL报错信息-line 8:19 cannot recognize input near ‘<EOF>‘ ‘<EOF>‘ ‘<EOF>‘ in subquery source
SQL报错解决
2024-02-01 19:34:07 621
原创 大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置
本文介绍了两种重要的配置方式:Live Templates 和文件模板。Live Templates 是一种快速生成常用代码片段的方法,而文件模板则允许您定义新文件的初始代码结构。通过本文,您将学会如何配置这两种模板,从而加速您的开发流程。
2024-01-31 19:59:50 828
原创 大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进
通过本文,您将了解到Hadoop与Spark的基础知识,并掌握Spark编程的基本流程和实践经验。
2024-01-31 15:23:08 2272 1
关于CEP中无法在结尾事件中使用贪婪或勉强量词的情况该如何处理?
2024-03-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人