自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 收藏
  • 关注

原创 大数据面试题 —— Hive

(1)承UDF或者UDAF或者UDTF,实现特定的方法;(2)打成jar包,上传到服务器(3)执行命令add jar路径,目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"(5)在select中使用 UDF 函数。

2024-05-19 14:54:20 556

原创 Python进阶学习笔记(六) —— 浅拷贝深拷贝

可能拷贝对象的多层;使用 copy.deepcopy 函数浅拷贝:最多拷贝对象的一层;使用 copy.copy 函数不管是给对象进行深拷贝还是浅拷贝,只要拷贝成功就会开辟新的内存空间存储拷贝的对象。

2024-05-16 20:48:42 237

原创 2024.5.9 —— LeetCode 高频题复盘

本题是判断子结构,只要包含这一部分就行,不管这一部分下面是否还有节点,而子树是包含该子树,该子树下面不能包含其他的节点,否则就不是包含该子树。有个小小的区别就是,n / num 的取值能不能为0。

2024-05-10 22:37:16 432

原创 2024.5.2 —— LeetCode 高频题复盘

【代码】2024.5.2 —— LeetCode 高频题复盘。

2024-05-09 22:41:19 327

原创 大数据面试题 —— 数据仓库

3)从管理层面上来说,数据仓库是构建在公司各个业务系统之上,它是一面镜子,很多时候它能反映出业务系统的问题,所以需要管理层的支持和约束,比如通过第一条说的事后自动检验机制反映出业务系统的维护错误,需要相应的业务系统维护人员及时处理。实现原理:在需要聚合的key前加一个随机数的前后缀,这样就能得到非常均匀的key,然后按这个加工之后的key进行第一次聚合之后,接着去除掉随机前缀,再次进行全局聚合,就可以得到最终的结果。聚合是指将数据按照某个维度进行汇总,并计算相应的聚合指标,比如总计、平均值、最大值等等。

2024-05-09 18:38:28 646

原创 大数据面试题 —— 数据库

这是因为在OR条件中,如果其中一个条件的选择性很低,即满足该条件的记录数量很大,而另一个条件的选择性较高,即满足该条件的记录数量较少,数据库引擎可能会选择放弃使用索引,而进行全表扫描,以避免在索引中进行大量的随机访问,从而导致性能下降。(1)视图是外模式(也称为用户模式或者子模式,是用户或者应用程序所见到的数据库的逻辑结构),表是内模式(也称为存储模式或物理模式,是数据库的物理结构的描述);索引是一种帮助mysql提高查询效率的数据结构,通常是基于一个或多个列创建的,就像是书的目录一样。

2024-05-09 18:37:23 1061

原创 Java Web 学习笔记(一) —— MySQL(3)

面试官:了解过索引吗?(什么是索引)候选人:嗯,索引在项目中还是比较常见的,它是帮助MySQL高效获取数据的数据结构,主要是用来提高数据检索的效率,降低数据库的IO成本,同时通过索引列对数据进行排序,降低数据排序的成本,也能降低了CPU的消耗。索引分类主键索引:设置主键后数据库默认建立索引,一个表只能有一个主键索引且不能为空。(主键约束+提高查询效率)唯一索引:索引列的值必须唯一,但允许有空值,且只允许有一个空值。(唯一约束+提高查询效率)普通索引。

2024-05-09 18:36:29 448

原创 2024.5.4 —— LeetCode 高频题复盘

返回一个元组的迭代器,其中的第 i 个元组包含来自每个参数序列或可迭代对象的第 i 个元素。如果已知有一个 x,x+1,x+2,⋯ ,x+y 的连续序列,而我们却重新从 x+1,x+2或者是 x+y 处开始尝试匹配,那么得到的结果肯定不会优于枚举 x为起点的答案,因此我们在外层循环的时候碰到这种情况跳过即可。由于我们要枚举的数 x 一定是在数组中不存在前驱数 x−1 的,不然按照上面的分析我们会从x−1 开始尝试匹配,因此我们每次在哈希表中检查是否存在x−1 即能判断是否需要跳过了。

2024-05-08 21:26:34 398

原创 2024.5.5 —— LeetCode 高频题复盘

问题,完全背包和01背包问题唯一不同的地方就是,每种物品有无限件。核心代码中两层for循环是可以完全颠倒的,先遍历背包后遍历物品,先遍历物品再遍历背包都是可以的。哔哩哔哩暑期实习考过这题。在做该题之前建议先做。

2024-05-08 21:25:46 382

原创 2024.5.6 —— LeetCode 高频题复盘

【代码】2024.5.6 —— LeetCode 高频题复盘。

2024-05-08 21:25:04 455

原创 2024.5.7 —— LeetCode 高频题复盘

核心思想: 一个数被另一个数异或两次,该数本身不变。对角线上横纵坐标和为定值 k。在做该题之前建议先做。

2024-05-08 21:23:20 348

原创 2024.5.8 —— LeetCode 高频题复盘

【代码】2024.5.8 —— LeetCode 高频题复盘。

2024-05-08 21:22:42 326

原创 2024.5.8 LeetCode 刷题记

可能是所有排序里最快的一种,因为它不涉及比较。所以一般只涉及数字的时候,还能应付,一旦涉及到字母混数字排序,它就抓瞎了。这个应该是个重点,本题只有0 - 100的数字,就非常适合计数排序。由鸽巢原理可知,如果 timePoints 的长度超过 1440,那么必然会有两个相同的时间,此时可以直接返回 0。本题意思其实就是有一个数组,你要分割成 k 份,每一份都有一个和,这些和当中的最大值。(超出ans容量后,每次弹出最小的元素,保留较大元素)最大值尽可能小」是二分搜索题目常见的问法。若实现最大 K 个数。

2024-05-08 20:14:41 346

原创 2024.4.28 —— LeetCode 高频题复盘

【代码】2024.4.28 —— LeetCode 高频题复盘。

2024-04-30 16:42:12 318

原创 2024.4.29 —— LeetCode 高频题复盘

【代码】2024.4.29 —— LeetCode 高频题复盘。

2024-04-30 14:42:11 223

原创 2024.4.27 —— LeetCode 高频题复盘

因为nums[i]是基本类型,Java 实际上会将 nums[i] 视为一个整数,并尝试将其作为索引来移除 path 列表中对应索引处的元素。如果确实需要根据值来移除元素,并且该值是一个对象(这里是 Integer)注意:在Java中,不能使用 and 和 or 这样的关键字来表示逻辑运算。Java使用符号 &&(逻辑与)和 ||(逻辑或)来执行逻辑运算。Java 对布尔表达式的要求是明确且严格的,它要求表达式明确地返回一个布尔值。注意:Java写法中。注意:在Java中,

2024-04-28 17:16:37 446

原创 大数据面试题 —— Spark数据倾斜及其解决方案

有的时候,我们可能会遇到大数据计算中一个最棘手的问题 ——数据倾斜,此时 Spark 作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证 Spark 作业的性能。

2024-04-27 13:51:16 1596 1

原创 2024.4.26 —— LeetCode 高频题复盘

用到的数据结构:哈希表+双向链表。

2024-04-26 17:43:29 400

原创 Hive on Spark 配置

Hive引擎包括:MR(默认)、tez、spark。Hive on Spark:Hive既作为存储元数据又负责 SQL 的解析优化,语法是 HQL 语法,执行引擎变成了 Spark,Spark 负责采用 RDD 执行。Spark on Hive:Hive 只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用 RDD 执行。

2024-03-30 10:50:40 1178

原创 Sqoop 的安装与配置

(1)上传安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 到 hadoop101 的 /opt/software 路径中。(1)将 mysql-connector-java-5.1.48.jar 上传到 /opt/software 路径。(2)进入到/opt/software/路径,拷贝 jdbc 驱动到 sqoop 的 lib 目录下。进入到/opt/module/sqoop/conf目录,重命名配置文件。(2)解压sqoop安装包到指定目录,并对其重命名。

2024-03-28 21:08:48 535

原创 大数据面试题 —— Kafka

Kafka是由 Apache 开发的一个分布式的基于发布订阅模式的消息队列,主要应用于大数据的实时处理领域。

2024-03-19 19:35:23 1448

原创 大数据面试题 —— Flume

可以从以下几个方面回答,每一个方面又可以当做一个面试题(1)Flume 是什么?Flume 是 Cloudera 公司提供的一个高可用的高可靠的分布式的海量日志采集聚合和传输的系统。Flume 的设计原理是基于数据流(流式架构,灵活简单),其最主要的作用是实时读取服务器本地磁盘的数据,将数据写入HDFS 或 Kafka等。(2)Flume 文件目录Flume 主要的文件目录如下:(3)Flume 的 Agent 组件。

2024-03-19 15:46:42 1261

原创 大数据面试题 —— HBase

HBase 是一种分布式可扩展支持海量数据存储的NoSQL数据库,支持对大数据进行随机、实时的读/写访问。

2024-03-19 13:21:21 1185

原创 大数据技术学习笔记(十三)—— HBase

HBase 是一种分布式可扩展支持海量数据存储的NoSQL数据库,支持对大数据进行随机、实时的读/写访问。NoSQL数据库(非关系型数据库)是一种不同于传统关系型数据库的数据库管理系统。它们使用灵活的数据模型,不遵循传统的表格关系模式,而是采用键值对(如Redis)、文档型(如MongoDB)、列族存储(如HBase)、图形数据库(如Neo4j)等各种数据模型。非关系型数据库主要用于存储和处理大量分散的数据,具有高性能、高可扩展性和高可用性的特点。

2024-03-19 11:56:58 1470 1

原创 大数据面试题 —— Zookeeper

总的来说,Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。具体来说,Zookeeper是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper 就负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应。Zookeeper = 文件系统 + 通知机制。Consistency(一致性)用户在访问分布式系统中的任意节点,得到的数据必须一致。

2024-03-18 19:23:10 1483

原创 HBase 的安装与部署

在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。我们只需删除HBase中的SLF4J,使用Hadoop中的SLF4J即可。(集群中的机器都删)端口(hadoop3)则是客户端与NameNode进行通信交互的端口。(1)关闭 HBase 集群(如果没有开启则跳过此步)(7)HBase 服务的启动。(4)使环境变量生效。

2024-03-06 17:25:11 1184

原创 大数据技术学习笔记(五)—— MapReduce(2)

目录1 MapReduce 的数据流1.1 数据流走向1.2 InputFormat 数据输入1.2.1 FileInputFormat 切片源码、机制1.2.2 TextInputFormat 读数据源码、机制1.2.3 CombineTextInputFormat 切片机制1.3 OutputFormat 数据输出1.3.1 OutputFormat 实现类1.3.2 自定义 OutputFormat2 MapReduce 框架原理2.1 MapTask 工作机制2.2 ReduceTask 工作

2024-03-05 17:00:21 1206

原创 大数据技术学习笔记(五)—— MapReduce(1)

MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在一个Hadoop集群上。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化呢?

2024-03-04 17:04:35 958

原创 Scala 安装与部署

Windows环境安装。

2024-02-27 22:01:00 609

原创 Hive 安装与部署

hive的元数据是存在 MySql 里的,如果不使用元数据服务的话,hive直接会操作MySql里的元数据,使用元数据服务的话,hive会操作元数据服务,元数据服务再去操作 MySql 里的元数据。用于列出系统中已安装的所有软件包的名称,CentOS 6系统自带的数据库 MySql,CentOS 7系统自带的数据库是 mariadb(本质上就是 MySQL),根据自己的系统来确定。hive 工作时底层是基于 hadoop 的,hadoop 里也有日志的 jar 包,二者可能会有冲突,将 hive 中的。

2024-01-08 22:06:29 1201

原创 大数据技术学习笔记(十一)—— Flume

Flume 是 Cloudera 公司提供的一个高可用的,高可靠的,分布式的海量日志采集聚合和传输的系统。Flume 基于流式架构,灵活简单。这里的日志不是指框架工作运行的日志,而是跟业务相关的日志数据,如用户行为数据等Flume 最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到 HDFS。案例需求。

2023-12-24 09:29:38 1195

原创 Kafka 安装与部署

依次在 hadoop101、hadoop102、hadoop103 节点上启动 kafka。kafka 本身的运行日志会存放在kafka目录下的 logs 文件夹下。注意,停止集群的时候,也要先停止kafka,再停止zookeeper。修改 kafka 数据的存放位置(默认存储7天)中编写的群起Zookeeper 集群的脚本。(7)修改其他机器中的 broker id。(6)向其他机器分发 kafka。(9)启动 Kafka 集群。中写过的集群分发脚本。(8)分发系统环境变量。(11)群起集群脚本。

2023-12-18 19:04:18 635

原创 Flume 安装与部署

但是这并不影响 Flume 的运行,因为系统会自动找到 Hadoop 中自带的兼容版本的。,我安装的 Hadoop 版本是 3.1.3 ,这与。删除以兼容Hadoop 3.1.3。版本不兼容,删除以避免后续报错。上传到 linux 的。(5)将lib文件夹下的。保存退出,使环境变量生效。

2023-12-17 12:03:26 770

原创 高频算法题 —— 检测循环依赖(拓扑排序)

检测循环依赖本质就是使用判断图中是否有环、给出拓扑排序的结果详情请移步。

2023-12-16 15:52:40 386

原创 大数据技术学习笔记(四)—— HDFS

随着数据量越来越大,在一个操作系统中存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是这样不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式管理系统中的一种。HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件;其次,其是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。

2023-12-04 22:47:07 1162

原创 大数据技术学习笔记(九)—— Zookeeper

Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。Zookeeper 从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper 就负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应。

2023-12-03 20:11:46 1097

原创 Zookeeper 安装与部署

Zookeeper 使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳,时间单位为毫秒。注意:如果不是第一次搭建集群,那么就把 Zookeeper 安装目录下的 zkData目录删除,并且把 logs 目录也删除。时能容忍的最多心跳数(tickTime的数量),用它来限定集群中的Zookeeper服务器连接到Leader的时限。在 Zookeeper 的安装目录的 zkData 目录下创建一个 myid 的文件,的绝对路径粘贴在下方位置处。

2023-12-03 15:11:24 1345

原创 Java Web 学习笔记(四) —— MyBatis

MyBatis 本是 Apache 的一个开源项目 iBatis, 2010 年这个项目由 apache softwarefoundation 迁移到了 google code ,并且改名为 MyBatis。2013 年 11 月迁移到 Github。MyBatis 是一款优秀的持久层框架,用于简化 JDBC 开发。官方文档持久层负责将数据到保存到数据库的那一层代码JavaEE三层架构:表现层、业务层、持久层框架框架就是一个半成品软件,是一套可重用的、通用的、软件基础代码模型。

2023-11-09 21:36:52 205 2

原创 Java Web 学习笔记(三) —— Maven 基础

Apache Maven 是一个项目管理和构建工具,它基于项目对象模型 (POM) 的概念,通过一小段描述信息来管理项目的构建、报告和文档Maven 模型:关于仓库:提供了一套标准化的项目结构提供了一套标准化的构建流程(编译,测试,打包,发布…)提供了一套依赖管理机制Maven 提供了一套标准化的项目结构不同 IDE 之间,项目结构不一样,不通用;

2023-11-03 17:05:29 132

原创 Java Web 学习笔记(二) —— JDBC

在开发中我们使用的是 Java 语言,那么势必要通过 Java 语言操作数据库中的数据。这就是接下来要学习的JDBC。JDBC 全称 (JavaDataBaseConnectivity ) ,即Java 数据库连接 ,就是使用Java语言操作关系型数据库的一套API我们开发的同一套 Java 代码是无法操作不同的关系型数据库,因为每一个关系型数据库的底层实现细节都不一样。

2023-11-03 10:54:33 177

网络编程用到的网络调试助手工具

网络编程用到的网络调试助手工具

2024-05-14

Java的日志配置文件 logback.xml

Java的日志配置文件 logback.xml

2023-08-19

目标检测人物是否佩戴安全帽数据集

安全帽数据集共含有 6696 张图片,以及对应的 6696 个 VOC 格式的 xml 标注文件,以下四个python脚本文件作用分别是对voc格式的xml标注文件进行转换yolo格式的txt文件,以及按照比例划分数据集。 文件目录结构: ├───DataProcessing │ └───VOCdevkit │ └───VOC2007 │ ├───Annotations │ ├───ImageSets │ └───JPEGImages ├───split82.py ├───split721.py ├───Voc2Yolo.py ├───Yolo2Voc.py

2023-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除