自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 收藏
  • 关注

原创 【spark】spark列转行操作(json格式)

spark列转行操作,并将数据存储成json格式

2024-06-06 15:39:00 334 1

原创 【Spark】读取本地文件

spark任务读取本地csv文件。

2024-04-29 11:12:25 627 3

原创 【Maven】<scope>provided</scope>

scope> 被设置为 provided 是因为它主要是一个编译时工具,用来生成样板代码,如 getter、setter 方法等。一旦代码被编译,Lombok 的工作就完成了,运行时不再需要它。因此,在打包应用时,不需要将其包含在其中,因为它在运行时不是必需的。这就是为什么通常将其 scope 设置为 provided。在Maven中,“provided”是一个常用的依赖范围,它表示某个依赖项在编译和测试阶段是必需的,但在运行时则由外部环境提供,不需要包含在最终的项目包中。在运行时勾选↓↓↓↓↓↓。

2023-12-29 17:51:09 7645

原创 es修改mapping映射

在Elasticsearch中,一旦一个字段被创建,它的数据类型通常是固定的,不能直接修改。这是因为Elasticsearch是基于倒排索引的,字段的数据类型在创建索引时确定,并且与索引的结构相关联。5、新建同名新索引及映射(同上)6、从中间索引中还原数据(同上)3、向中间索引备份源索引数据。2、创建mapping映射。确认是否copy过去。

2023-12-29 17:43:10 1679

原创 Scala知识点——App类

我们在代码中一般程序都是是通过main方法进入。但是在scala中提供了一个App类,通过继承可以实现不用显式的调用main方法就能运行。

2023-12-28 11:11:21 801 1

原创 HBase高阶(一)基础架构及存储原理

HBase是Hadoop生态系统中的一个分布式、面向列的开源数据库,具有高可伸缩性、高性能和强大的数据处理能力。广泛应用于处理大规模数据集。HBase是一种稀疏的分布式持久的多维排序map稀疏:对比关系型数据库和非关系型数据库,关系型数据库是以表格的形式进行存储,对存储的要求较高,每一行每一列都需要预留对应的存储空间,这就会造成存储空间的浪费。分布式:海量数据保存在多台机器上。持久化:将内存中的对象存储在数据库中,或者存储在磁盘文件中。多维:noSQL数据库的本质是KV结构。

2023-09-25 18:52:28 2288

原创 数据结构与算法(三)——递归

递归机制与常见案例分析(迷宫回溯问题、八皇后问题)

2023-09-18 17:02:11 176

原创 Scala 高阶:Scala中的模式匹配

Scala 中的模式匹配(case)与 Java 中的 switch 对比

2023-09-18 10:53:30 491 1

原创 数据结构与算法(二)——前缀、中缀、后缀表达式

前缀、中缀、后缀表达式 及 中缀、后缀的转换(Scala版)

2023-09-13 23:33:50 2202

原创 中缀表达式 - 栈实现综合计算器

中缀表达式 - 栈实现综合计算器(Scala版)

2023-09-06 16:35:41 520

原创 数据结构与算法(一)——数据结构【数组、队列、链表、栈】

数据结构【数组/ 稀疏数组、队列、链表、栈】

2023-09-04 14:42:44 223

原创 链表模拟栈

链表模拟栈

2023-09-01 10:58:51 146

原创 合并两个有序的单链表,合并之后的链表依然有序

合并两个有序的单链表,合并之后的链表依然有序

2023-08-30 16:37:30 204

原创 HBase客户端的批量写缓存BufferedMutator

BufferedMutator是什么?又应该如何实现呢?

2023-08-28 09:41:58 1770

原创 .asScala爆红

代码中的asScala就可能不标红了,如果标红,就直接去掉,去掉就不报错了。

2023-07-31 14:41:37 204

原创 ElasticSearch 7.x使用

The Elastic Stack包括ElasticSearch、Kibana、Beats和Logstash。能够安全可靠的获取任何来源、任何格式的数据,然后地对数据进行搜索、分析和可视化。简称ES,是一个开源的高扩展的分布式全文搜索引擎,是整个Elastic Stack技术栈的核心。它可以近乎实时的存储、检索数据。

2023-07-30 20:33:24 1406 1

原创 HBase有写入数据,页面端显示无数据量

写了一个测试类,插入几条数据,测试HBase的数据量。很简单的功能,这就出现问题了。网页端可以看到,能够看到读写请求,但是不管是内存、还是磁盘,都没有数据。在HDFS(Hadoop分布式文件系统)中,有一个重要的参数控制着内存达到多大时开始将数据写入磁盘,该参数为。我又多追加了几条,等待了一会儿现在的数据量到了6k条。默认为 64M,将其改为2M,再追加几条try一try呢?为什么缓存中存在数据,shell 中也能查询到,为什么没有落到内存中呢?于是就想到去HDFS查看,也是有数据存在的。

2023-07-27 00:52:56 996

原创 Git 快速入门

head文件可以用于指向不同的分支。而不同的分支可以指向相同的提交。这样就可以实现不同的分支指向不同的版本。,互相之间互不影响。git 中分为工作区域、存储区域 和 比对区域(暂存区)。不同区域的功能不同,文件状态也不同。在工作区域,可以针对不同分支进行操作;在存储区域,可以比对文件的变化如新增、删除。在三个区域中,文件的状态都是不一样的。

2023-07-24 08:25:15 447 2

原创 415. 字符串相加

你不能使用任何內建的用于处理大整数的库(比如。), 也不能直接将输入的字符串转换为整数形式。,计算它们的和并同样以字符串形式返回。给定两个字符串形式的非负整数。

2023-07-17 19:15:05 195

原创 15. 三数之和

给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i!= k ,同时还满足 nums[i] + nums[j] + nums[k] == 0。不同的三元组是 [-1,0,1] 和 [-1,-1,2]。输入:nums = [-1,0,1,2,-1,-4]输出:[[-1,-1,2],[-1,0,1]]输入:nums = [0,1,1]输入:nums = [0,0,0]解释:唯一可能的三元组和为 0。输出:[[0,0,0]]

2023-07-11 19:43:52 542

原创 Scala中使用 break 和 continue

Scala中没有 break 和 continue 关键字,但是我们可以用 Breaks 类提供的相应方法来实现对应功能。

2023-07-11 19:27:02 1169 3

原创 2490. 回环句

句子中的单词是 ["leetcode", "exercises", "sound", "delightful"]。句子中的单词是 ["Leetcode", "is", "cool"]。且大写和小写字母会视作不同字符。是由单个空格分隔的一组单词,且不含前导或尾随空格。,请你判断它是不是一个回环句。ound 的最后一个字符和 delightfu。句子中的单词是 ["eetcode"]。xercises 的第一个字符相等。eetcode 的第一个字符相等。ound 的第一个字符相等。

2023-07-06 21:01:48 286

原创 面试题 16.02. 单词频率

/返回2,"have"出现2次。//返回0,"you"没有出现过。设计一个方法,找出任意指定单词在一本书中的出现频率。

2023-07-06 19:10:00 281

原创 2178. 拆分成最多数目的正偶数之和

(2 + 4 + 6) 为最多数目的整数,数目为 3 ,所以我们返回 [2,4,6]。[2,6,4] ,[6,2,4] 等等也都是可行的解。的正偶数之和,且拆分出来的正偶数数目。请你返回一个整数数组,表示将整数拆分成。请你将它拆分成若干个。进行拆分,请你返回一个。

2023-07-06 18:32:52 114

原创 509. 斐波那契数

F(n) = F(n - 1) + F(n - 2),其中 n > 1。开始,后面的每一项数字都是前面两项数字的和。表示)形成的序列称为。

2023-07-06 17:28:51 135

原创 Scala中那些奇怪的符号

>:”的时候,传任何参数都可以,但是返回值回有所不同,Animal的子类都会统一按照Animal来处理!属于 Scala 中的泛型,上边界是“:”。如:T v 里面。

2023-06-29 19:58:00 1158

原创 java.util.concurrent.Executionexception 异常

caused by org.apache.flink.client.program.programInvocationException: Job failed。

2023-06-25 15:51:29 1420

原创 Spark 和 MapReduce 的对比

容错性是指系统在面对故障、错误或者异常情况时能够保持正常运行,并能够从故障中恢复或继续进行操作的能力。数据在处理中,由于数据规模庞大、且分布在多个计算节点上,节点故障可能导致任务中断或数据丢失。

2023-06-20 14:12:53 4494

原创 spark 和 flink 的对比

的数据模型是(Resilient Distributed Dattsets),这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的 Spark Streaming 是通过(micro-batches),即,所以严格意义上,还不能算作流式处理。

2023-06-19 21:01:54 3035

原创 scala基础——getOrElse()方法

从API中可以看出,传入的参数是(key,default)这种形式,返回值是:如果有key那就get(key),如果没有,就返回default。当想要获取1,2的value的时候,由于map中有值,是可以获得的。而想获得3的值时,由于map中不存在,只能获得默认值default。传入一个key,得到这个key的映射。

2023-06-19 19:50:22 713

原创 电气综合自动化中“四遥”功能概述

遥测是互感器测量的模拟量是具体数值,如电压电流等。遥测主要用于集中检测分散的或难以接近的被测对象,如被测对象距离遥远,所处环境恶劣,或处于高速运动状态。遥测信息是RTU采集到的电力系统运行的实时参数,如发电机出力,母线电压,系统中的潮流,有功负荷和无功负荷,线路电流,电度量等测量信息。通过远程调节信号来调整电力系统的运行参数,如发动机的励磁、无功补偿等。通过远程控制信号来操作电力系统的设备,如打开或关闭断路器、切换电源等。在电力系统中,“四遥”通常指的是四个测量参数,分别是:遥测、遥信、遥控 和 遥调。

2023-06-19 15:35:37 4309 1

原创 SQL优化之谓词下推

1、谓词下推:在存储层即过滤了大量大表无效数据,减少扫描无效数据;所谓下推,即谓词过滤在map端执行,所谓不下推,即谓词过滤在reduce端执行2、inner join时,谓词放任意位置都会下推3、left join时,左表的谓词应该写在where 后4、right join时,左表的谓词应该写在join后通过上面的分析,谓词下推是生效的,但是在我们对最后结果的输出是因为执行顺序不同导入的结果不一致。

2023-06-19 09:01:11 956

原创 Flink学习——Flink中的时间语义和窗口

水位线可以看作是一条特殊的数据记录,它是插入到数据流中的一个标记点,主要内容就是一个时间戳,用来指示当前的事件事件。而它插入流中的位置,就应该是在某个数据到来之后。表示该时间点之前所有的时间都已经到达系统。我们之前学习过批处理,是指数据积累到一定的程度再进行处理。而Flink是一种流式处理框架。所谓流处理,就是数据来一条数据处理一条。那么,如果我们的数据是按顺序发送(有序流),那么按照顺序进行处理没有问题。但是消息不在是按照顺序发送,产生了乱序,这时候该怎么处理?于是我们引入了水位线的概念。

2023-05-22 15:34:17 1507 1

原创 Flink学习——处理函数ProcessFunction及多流转换

处理函数processFunction、分流output、合流union/connect/join

2023-05-20 16:28:40 2617 1

原创 Flink学习——DataStream API

/ 标志位// run方法:不停循环,发送数据// 1. 随机数生成器// 2. 用标志位作为循环判断的条件,不断发送数据// 3. 调用sourceContext的方法向下游发送数据sourceContext.collect(SensorReading("生成:"+i,1,1))// cancel方法:定义标志位,用于run中断的控制读取自定义的数据源Flink 的 DataStream API 编程风格其实是一致的:基本上都是基于 DataStream 调用一个方。

2023-05-17 21:50:14 1671

原创 Flink学习——基本概述

apache flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。

2023-05-15 16:49:17 1292

原创 hbase启动异常解决方法

重启hbase之后,仍然出现上述异常。推测可能是HDFS中和zk中的hbase没有删除导致。下面重启hbase、zookeeper、hadoop就可以了。

2023-05-15 11:02:42 509

原创 大数据技术之SparkSQL——数据的读取和保存

SparkSQL提供了通用的保存数据和数据加载的方式。根据不同的参数读取,并保存不同格式的数据。SparkSQL默认读取和保存的文件格式为Parquet。

2023-05-08 20:17:49 3571

原创 大数据技术之HBase(四)RowKey设计原则及方法

检索HBase的记录首先需要通过RowKey来定位数据行。当大量的client访问hbase集群的一个或少数几个节点,造成少数regionServer的读/写请求过大,或负载过大,而其他的regionServer负载却很小。这就是 “热点” 现象。

2023-05-08 15:23:48 1382

原创 MapReduce常用参数调优

MapReduce运行时会出现内存溢出异常,常见的解决方案

2023-05-05 14:37:54 1201

log日志数据文件(测试用-test)

log日志数据文件(测试用-test)

2023-04-10

zeppelin外部jar包

zeppelin外部jar包

2023-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除