（YSY_YSY）-CSDN博客

原创大数据面试题之SQL题

2.有一个分数表id 是该表的主键。该表的每一行都包含了一场考试的分数。varchar(255) DEFAULT NULL COMMENT ‘学生学制’,int(255) DEFAULT NULL COMMENT ‘录取学生人数’,1.有一个录取学生人数表，记录的是每年录取学生人数和入学学生的学制。说明：例如录取年度2018学制3，表示该批学生在校年份为2018。在排名相同的分数后，排名数应该是一个连续的整数。如果两个分数相等，那么两个分数的排名应该相同。stu_len表示录取学生的学制。

2024-03-17 14:00:49 1015 1

原创解决hive表新增的字段查询为空null问题

这是怎么回事，怀疑是不是数据没有插入成功，于是查看日志确实是写入成功了，后换了impala和presto 两种引擎查询，发现两个结果都有值，如果直接到目录下查看数据文件会发现确实有值。第二种方案，要是我们表里有很多分区，这样处理就显得有些繁琐了，不知有没有更优雅的处理方式，答案是肯定的，那就是在修改列时加上cascade。经排查，这是hive 的bug，用Hive版本比较低，会出现这个问题。新增字段，然后向已存在分区中插入数据，以为问题就解决了。其中dt为分区，往学生表新增一个分区，并插入记录测试。

2024-02-05 17:24:50 1645 2

原创大数据面试题之Elasticsearch:每日三题(七)

大数据面试题之Elasticsearch:每日三题1.Elasticsearch索引文档的流程？2.Elasticsearch更新和删除文档的流程？3.Elasticsearch搜索的流程？1.Elasticsearch索引文档的流程？协调节点默认使用文档ID参与计算(也支持通过routing)，以便为路由提供适合的分片：shard=hash(document_id)%(num_of_primary_shards)当分片所在的节点接收到来自协调节点的请求后，会将请求写到Memory Buffer

2023-07-28 14:59:08 960

原创大数据面试题之Elasticsearch:每日三题(六)

系统中的数据，随着业务的发展，时间的推移，将会非常多，而业务中往往采用模糊查询进行数据的搜索，而模糊查询会导致查询引擎放弃索引，导致系统查询数据时都是全表扫描，在百万级别的数据库中，查询效率是非常低下的，而我们使用ES做一个全文索引，将经常查询的系统功能的某些字段，比如说电商系统的商品表中的商品名，描述，价格还有id这些字段我们放入ES索引库里，可以提高查询速度。

2023-07-28 14:08:00 690

原创大数据面试题之Mysql:每日三题(五)

很开心写完上一篇，就立刻找到了我入职的第二家公司，所以我还是相信那一句话，越努力越幸运。

2023-06-26 14:14:07 565

原创大数据面试题之Mysql:每日三题(四)

我很喜欢的一句勉励今天的自己和大家：“人生当中成功只是一时，失败却是主旋律，但是如何面对失败，却把人分成了不同的样子，有的人会被失败击倒，有的人会爬起来继续向前。3.当对表的数据进行insert，update，delete的时候，索引也要动态的维护，这样就会降低的维护速度，(建立索引会占用磁盘空间的索引文件).写锁是排他的，会阻塞其他的写锁和读锁，update，delete，insert都对加写锁。从锁的粒度上分mysql支持锁的表级锁，行级锁（innodb），页级锁（BDB）for update;

2023-04-03 18:21:52 610

原创 HIVE架构和原理

1.用户连接接口CLI：是指Shell命令行JDBC/ODBC：是指Hive的java实现，与传统数据库JDBC类似。WebUI：是指可通过浏览器访问Hivehive的可选组件，此组件是一个软件架构服务，允许客户端使用包括Java，C++，Ruby和其他很多种语言，通过编程的方式远程访问Hive。3.元数据Hive将元数据存储在数据库中，如mysql，derby。Hive中的元数据包括(表名，表所属的数据库名，表的拥有者，列/分区字段，表的类型(是否是外部表)，表的数据所在目录等)...

2022-08-13 19:17:40 1298

原创大数据之就业岗位

1.负责分析大数据平台各个组件运行状态，负责大数据平台运行故障的分析，定位和解决，并根据业务场景进行定制优化2.负责业务集群日常问题的解答、汇总整理、跟踪解决等；3.参与大数据集群自动化运维工具的设计与实施；4.参与新技术、新组件的技术探索、测试和应用。......

2022-07-19 11:44:46 860

原创【Linux】Linux无法免密登录的原因

1.检查~/.ssh目录的权限是否为7002.检查~/.ssh/authorized_keys文件的权限是否为6003.检查~/.ssh/authorized_keys文件中的公钥是否正确4.检查/etc/ssh/sshd_config 中的 AuthorizedKeysFile .ssh/authorized_keys 文件名是否正确按上以操作完成之后，ssh登录还是提示要输入密码，于是检查以上几项，都正确。此时需要查看secure安全日志发现和root目录权限有关系查看当前/root目录的权限

2022-07-08 10:40:03 3431 1

原创【Linux】bash: rsync: 未找到命令 rsync: connection unexpectedly closed (0 bytes received so far) [sender] r

linux 使用 rsync 命令报错bash: rsync: 未找到命令rsync: connection unexpectedly closed (0 bytes received so far) [sender]rsync error: remote command not found (code 127) at io.c(226) [sender=3.1.2]yum -y install rsync，但发现安装了rsync依旧报错，最后发现同步和被同步的虚拟机都需要安装yum -y instal

2022-07-07 14:34:51 10344 1

原创大数据之YARN架构概述

1）ResourceManager (RM):整个集群资源(内存，CPU等)的老大2）NodeManager (NM) : 单个节点服务器资源老大3）ApplicationMaster (AM):单个任务运行的老大4）Container:容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存，cpu，磁盘，网络等。说明1：客户端可以有多个说明2：集群上可以运行多个ApplicationMaster说明3：每个NodeManager上可以有多个Container小知识：一个Con

2022-07-06 19:25:20 417

原创 java之static关键字

staic关键字的作用：1.使用static关键字修饰一个属性声明为static的变量实质就是全局变量2.使用static关键字修饰一个方法通常，在一个类中定义一个方法为static，那就是说，无需本类的对象即可调用此方法3.使用staic关键字修饰一个类(内部类)声明为static的方法有以下几条限制它们仅能调用其他的static方法它们只能访问static数据它们不能以任何方式引用this或super。什么时候使用static所有对象共同的属性或方法，那么我们可以定义为静态的。总结

2022-07-05 11:25:40 333

原创 java之值传递与地址传递

值传递:是指在调用函数时将实际参数复制一份到函数中，这样在函数中如果对参数进行修改，将不会影响到实际参数。对象的地址传递字符串的地址传递字符串本身就是一个对象

2022-07-04 21:16:40 1328

原创 java之ArrayList和Vector源码分析

ArrayList1.实现原理:采用动态对象数组实现，默认构造方法创建一个空数组，2.第一次添加元素，扩充容量为10，之后的扩充算法：原来数组大小+原来数组的一半（1.5倍）3.不适合进行删除或插入操作4.为了防止数组动态扩充次数过度，建议创建ArrayList时，给定初始容量5.线程不安全，适合单线程访问时使用JDK1.2开始1.实现原理，采用动态对象数组实现，默认构造方法创建了一个大小为10的对象数组2.扩充的算法:当增量为0时，扩充为原来大小的2倍，当增量大于0时，扩充为原来大小+增量

2022-06-29 19:29:57 202

原创 java之二分查找算法

二分法查找(折半查找)：前提是在已经拍好序的数组中，通过将待查找的元素与中间索引值对应的元素进行比较；若大于中间索引值对应的元素，去右半部分查找，否则，去左半部分查找。依次类推。值到找到为止；找不到就返回一个负数。注意：折半查找要求线性表必须采用顺序存储结构，而且表中元素关键词有序排序。......

2022-06-28 21:12:55 401

原创 java之冒泡排序和选择排序和直接插入排序原理

冒泡排序算法的运作如下:(从后往前)比较相邻的元素。如果第一个比第二个大，就交换他们两个。对每个一对相邻元素作同样的工作，从开始第一对到结尾的最后一对，在这一点,最后的元素应该会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。相同元素的前后顺序并没有改变，所以冒泡排序是一种稳定排序算法。总结：冒泡排序算法是常见面试基础算法之一，心法：N个数字来排队，两两相比比小靠前;外层循环N-1,内层循环N-1-i；每一趟从待排序的

2022-06-28 20:54:57 937

原创 Spark核心编程

Spark核心编程1.1 RDD1.1.1 什么是 RDD1.1.2 核心属性1.1.3 执行原理1.1.4 基本编程1.1.4.1 RDD创建1.1.4.2 RDD 并行度与分区1.1.4.3 RDD 转换算子Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：➢ RDD : 弹性分布式数据集➢ 累加器：分布式共享只写变量➢ 广播变量：分布式共享只读变量接下来我们一起看看这三大数据结构是如何在数据处理中使用的。1.1 RD

2022-04-02 17:10:49 2909

原创 Spark运行架构

Spark运行架构1.1 运行架构1.2 核心组件1.2.1 Driver1.2.2 Executor1.2.3 Master & Worker1.2.4 ApplicationMaster1.3 核心概念1.3.1 Executor 与 Core1.3.2 并行度（Parallelism）1.3.3 有向无环图（DAG）1.4 提交流程1.2.1 Yarn Client 模式1.2.2 Yarn Cluster 模式1.1 运行架构Spark框架的核心是一个计算引擎，整体来说，它采用了标准ma

2022-02-22 16:34:58 787

原创 Hbase(二)

Hbase快速入门2.1 HBase安装部署2.1.1 Zookeeper正常部署2.1.2 Hadoop 正常部署2.1.3 HBase 的解压2.1.4 HBase 的配置文件2.1.5HBase远程发送到其他集群2.1.6 HBase 服务的启动2.1.7 查看 HBase 页面2.2 HBase Shell 操作2.2.1 基本操作2.2.2 表的操作2.1 HBase安装部署2.1.1 Zookeeper正常部署首先保证 Zookeeper 集群的正常部署，并启动之：[atguigu@ha

2022-02-15 15:41:01 906

原创 Hbase概述(一)

Hbase概述1.Hbase简介1.1Hbase定义1.2 HBase数据模型1.2.1HBase逻辑结构1.2.2 HBase物理存储结构1.2.3 数据模型`在这里插入代码片`1.Hbase简介1.1Hbase定义HBase是一中分布式，可扩展，支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。从HBase的底层物理存储结构（K-V）来看,HBase更像一个multi-dimensional map。

2022-02-11 13:57:20 221

原创大数据面试题之Hadoop:每日三题(三)

大数据面试题之Hadoop:每日三题1. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂1. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂假设NameNode1 当前为Action状态，NameNode2为Standby状态。如果某一时刻NameNode1对应的ZKFailoverController进程发生了"假死"现象，那么Zookeeper服务端会认为NameNode1挂掉了,根据前面的主备切换逻辑，NameNode2会代替NameNode...

2021-12-05 10:16:04 1532

原创 Caused by: com.mysql.jdbc.MysqlDataTruncation: Data truncation: Truncated incorrect DOUBLE value: ‘s

项目场景：提示：这个问题的mysql连接设置的问题类型不一致，然后我是用flink连接mysql报错。问题描述：Caused by: com.mysql.jdbc.MysqlDataTruncation: Data truncation: Truncated incorrect DOUBLE value: 'sensor_1' at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:3513) at com.mysql.jdbc.Mysql

2021-11-28 10:37:27 3657

原创 Spark 运行环境

Spark 运行环境1.Local模式1.1解压缩文件1.2启动Local环境1.3命令行工具1.4退出本地模式1.5提交应用2.Standalone模式2.1修改配置文件2.2启动集群2.3提交应用2.4提交参数说明2.5配置历史服务2.6 K8S & Mesos 模式2.7 Windows 模式2.8 部署模式对比2.9 端口号Spark 作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分

2021-11-20 10:51:21 2003

原创 Spark快速上手

Spark快速上手1.创建Maven插件1.1增加Scala插件1.2 增加依赖关系1.3WordCount1.4 异常处理在大数据早期的课程中我们已经学习了 MapReduce 框架的原理及基本使用，并了解了其底层数据处理的实现方式。接下来，就让咱们走进 Spark 的世界，了解一下它是如何带领我们完成数据处理的。1.创建Maven插件1.1增加Scala插件Spark 由 Scala 语言开发的，所以本课件接下来的开发所使用的语言也为 Scala，咱们当前使用的 Spark 版本为 3.0.

2021-11-19 19:47:01 1630

原创 Redis 入门

Redis 入门概述Redis是什么？Redis（Remote Dictionary Server )，即远程字典服务。是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。Redis能该干什么？内存存储、持久化

2021-11-19 09:18:28 127

原创 Exception in thread “main“ java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.SH

项目场景：Spark中DataFrame的导包问题问题描述：Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.SHUFFLE_SPILL_NUM_ELEMENTS_FORCE_SPILL_THRESHOLD()Lorg/apache/spark/internal/config/ConfigEntry; at org.apache.spark.sql.i

2021-11-17 11:16:58 2743 5

原创大数据面试题之Hadoop:每日三题(二)

大数据面试题之Hadoop1.NameNode在启动的时候会做哪些操作2.Secondary NameNode了解吗?它的工作机制是怎样的3.Secondary NameNode 不能恢复NameNode的全部数据，那如何保证NameNode数据存储安全1.NameNode在启动的时候会做哪些操作NameNode数据存储在内存和本地磁盘，本地磁盘数据存储在fsimage镜像文件和edits编辑日志文件首次启动NameNode1.格式化文件系统，为了生成fsimage镜像文件2.启动NameN

2021-11-14 10:32:01 2315

原创大数据面试题之Hadoop：每日三题(一)

Hadoop1.请说下HDFS读写流程2. HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办？3. HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办？ Hadoophadoop中常问的有三块，第一：存储，问到存储，就把HDFS相关的知识点拿出来；第二：计算框架(MapReduce);第三：资源调度框架(yarn)1.请说下HDFS读写流程这个问题虽然见过无数次，面试官问过无数次，但是就是有人不能完整的说下来，所以请务必记住。并且很多问题都是从HDFS读写流程

2021-10-24 17:21:22 526

原创 Java面试题:每日三题(四)

Java面试题:每日三题1.hashCode与equals1.hashCode与equalshashCode介绍hashcode()的作用是获取哈希码，也称为散列码；它实际上是返回的一个int整数。这个哈希码的作用是确定对象在哈希表中的索引位置，hashCode()定义在JDK的Object.java中，java中的任何类都包含hashCode()函数。散列表存储的是键值对(key-value)，它的特点是:能根据“键”快速检索出对应的“值”。这其中就利用了散列码!(可以快速找到所需要的对象)为什

2021-10-22 10:30:35 289

100套高颜值简历.zip

烟花(无开场白+拜年).zip

i2 超炫Echart物流大数据展示系统1-4页面.zip

烟花表白(3D文字场).zip

B-E00006-图书管理系统.rar

空空如也