風再起时-CSDN博客

原创阿里巴巴大数据技术专家岗面试题

阿里巴巴大数据技术专家岗面试题一面二面三面四面一面简单介绍一下自己以及自己做过的项目；Java HashMap 是不是线程安全的？为什么？请用 Java 写个单例模式知道几种 GC 算法？如何实现一个高效的单项列表逆向输出？数据湖和数据仓库有什么区别？详细介绍下 Flink 的 Checkpoint 执行机制（分布式快照）算法题：寻找两个正序数组的中位数二面如何在两个进程间共享数据？线程呢？如何在 main 函数里面等待一个线程执行完毕？用MapReduce手写一个wordc

2020-12-23 12:02:50 1291 3

原创 Oracle 查询数据库中的所有表名

第一种方法这种方法指定Oracle用户名（也就是Oracle中的模式）进行查询，把查询条件的 * 换成 TABLE_NAME 只展示表名-- DWD为用户名，用户名必须是大写，你填你的用户名SELECT * FROM all_tables WHERE OWNER = 'DWD'-- 加 ORDER BY TABLE_NAME 是让结果按照表名顺序展示SELECT * FROM all_tables WHERE OWNER = 'DWD' ORDER BY TABLE_NAME第二种方法

2020-11-18 16:35:33 29184 1

原创操作Hive报错 NoClassDefFoundError:com/fasterxml/jackson/core/exc/InputCoercionException 的解决方法

Exception in thread "main" java.lang.NoClassDefFoundError:com/fasterxml/jackson/core/exc/InputCoercionException连接Hive后进行操作会异常，详细异常信息如下图：报错原因解决办法在使用 jackson 库的对象各种转换功能时，可能报 java.lang.NoClassDefFoundError:com/fasterxml/jackson/core/exc/InputCoercionExcept

2020-10-16 09:55:45 5215 2

原创 HDFS 概述（二）

HDFS体系架构与数据读写1、HDFS 整体架构2、HDFS 数据复制3、HDFS读取和写入数据1）读取流程2）写入流程1、HDFS 整体架构HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode，这是一个 Master Server，用来管理文件系统的命名空间，以及调节客户端对文件的访问。一个 HDFS 集群还包括多个 DataNode，用来存储数据。HDFS 的整体结构如下图所示：HDFS 会对外暴露一个文件系统命名空间，并允许用户数据以文件的

2020-05-25 19:22:51 407

原创 HDFS 概述（一）

Hadoop 重点之 HDFS 1、HDFS 简介2、HDFS 的基本思想3、HDFS 的设计理念4、HDFS 的局限1、HDFS 简介HDFS是Hadoop的一个分布式文件系统，也是指被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，HDFS和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数

2020-05-25 17:01:23 440

原创 Hadoop概述

1、Hadoop 系统简介 Hadoop 是一种分析和处理大数据的软件平台，是一个用 Java 语言实现的 Apache 的开源软件框架，在大量计算机组成的集群中实现了对海量数据的分布式计算。 Hadoop 采用 MapReduce 分布式计算框架，根据 GFS 原理开发了 HDFS（分布式文件系统），并根据 BigTable 原理开发了 HBase 数据存储系统。 Hadoop 和 Google 内部使用的分布式计算系统原理相同，其开源特性使其成为分布式计算系统的事实上的国际标准。 Yahoo、F

2020-05-24 22:34:43 1164

原创大数据相关企业面试问题二（Kafka、Spark）

大数据相关企业面试问题（二）1.Kafka2.Spark3.其他1.Kafka1.Kafka如何保证数据一致性答：一致性定义:若某条消息对Consumer可见,那么即使Leader宕机了,在新Leader上数据依然可以被读到1.HighWaterMark简称HW: Partition的高水位，取一个partition对应的ISR中最小的LEO作为HW，消费者最多只能消费到HW所在的位置...

2020-04-19 23:43:15 348

原创大数据相关企业面试问题一（hadoop、hive、hbase、flume）

1.Hadoop1.mapreduce如果单纯的想增加map的数量提高并行度该怎么做？答：①具体的数据分片是这样的，InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一个map任务来进行处理;正常的map数量的大致是每一个Node是10~100个，对于CPU消耗较小的作业可以设置Map数量为300个左右，但是由于hadoop的每一个任务在初始化时需...

2020-04-19 15:27:30 499

原创（二）Flink环境搭建与Flink开发WordCount案例

一、Flink在IDEA上的环境配置Flink在IDEA上的开发是创建的maven项目，IDEA上maven的配置方法不在介绍，可自行参考网上资料进行配置maven环境。1、打开IDEA，创建一个maven工程：file->new->project->Maven->Next2、设置GroupId和ArtifacId：注意Version使用1.0继续创建项...

2020-04-15 19:29:01 1543 4

原创（一）Apache Flink简介及特点

1、为什么要学习Flink这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将大数据的计算引擎分...

2020-04-12 23:16:02 538

原创 MapReduce的shuffle在面试的时候会问的几点

MapReduce的shuffle在大数据开发面试时会问的几点1.map为什么输出到环型缓冲区，为什么叫环型缓冲区？2.为什么在缓冲区输出的时候进行排序？3.combiner的作用，运行原理？4.reduce拉取过来的数据为什么放在buffer?5.为什么reducer输入的数据必须在硬盘上？直接放在内存里面不就不用排序了吗？6.MapReduce的map和reduce如果没有自己的实现类，那能运...

2020-04-09 16:33:04 507

風再起时的博客