weixin_43363407-CSDN博客

原创 scala 实现flink cdc

导入相关pom 文件 <properties> <scala.version>2.11.0</scala.version> <flink.version>1.12.3</flink.version> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.c

2021-08-06 15:43:27 952 1

原创 hive自定义UDTF函数的编写，注册和使用

hive在查询的时候需要输入一行返回多行的时候，就需要写自定义UDTF函数了。例如实现下面的功能：Line:"spark,hive,hadoop,hdfs,flink" Myudtf(line, “,”)返回如下：sparkhivehadoophdfsflink添加pom依赖org.apache.hivehive-exec1.2.1代码如下：package hi...

2020-03-04 21:27:50 587

原创 scala读文件和写入文件

import java.io.{File, PrintWriter}/*本地文件内容有string 类型的是小写现在要换成大写并写入本地文件*/import scala.collection.mutableimport scala.io.{BufferedSource, Source}object ParseToTxt {def main(args: Array[String]...

2020-02-25 17:14:50 717

原创 ElasticSearch写入数据的工作原理是什么？

看文章得标题就知道，这个问题也是面试中经常被问道的。所以简单的做一个小总结。es组件在大数据中的应用中非常的多，可以很很多其他的组建相整合。但是，只要掌握了读写原理，我们基本就能运用自如了。面试的时候问：es 写入数据的工作原理是什么啊？es 查询数据的工作原理是什么啊？底层的 lucene 介绍一下呗？倒排索引了解吗？我们来分析一下，面试官的心里戏。其实面试官就是要看看你了解不了解 e...

2019-08-14 09:54:07 151

jvm垃圾回收主要有以下的几种算法，面试的时候也常常的被问道这类问题。所以，今天就稍微的整理一下，做一个总结。记得很久前一次面试，当时问我spark的各种调优，我自我感觉回答得都很不错，然后面试官说：你所讲的这些性能调优，资源参数调优，都是运行在JVM上的。你讲一下JVM的垃圾回收算法。所以今天就整理这个了。首先，问：如何判断对象已经消亡？答：1 引用计数算法。一个对象如果没有任何引用指向它...

2019-08-07 14:22:54 100

原创面试中常常被问到的数据模型

最近想整理一下关于数据模型的知识点，简要的写点文字。（一） ER 模型数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型，用实体关系（ Entity Relationship, ER ）模型描述企业业务，在范式理论上符合 3NF 。数据仓库中的 3NF OLTP 系统中的 3NF的区别在于，它是站在企业角度面向主题的抽象，而不是针对某个具体...

2019-08-01 20:22:40 1305

原创 JVM堆内存溢出后，其他线程是否可继续工作？

最近网上出现一个美团面试题：“一个线程OOM后，其他线程还能运行吗？”。我看网上出现了很多不靠谱的答案。这道题其实很有难度，涉及的知识点有jvm内存分配、作用域、gc等，不是简单的是与否的问题。由于题目中给出的OOM，java中OOM又分很多类型；比如：堆溢出（“java.lang.OutOfMemoryError: Java heap space”）；永久带溢出（“java.lang.Ou...

2019-07-31 19:20:27 207

原创 spark 内存，GC及数据结构调优

一，基本概述调优内存的使用主要有三个方面的考虑：对象的内存占用量(你可能希望整个数据集都适合内存)，访问这些数据的开销，垃圾回收的负载。默认情况下，java的对象是可以快速访问的，但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因：1),每个不同的Java对象都有一个“对象头”，它大约是16个字节，包含一个指向它的类的指针。对于一个数据很少的对象（比如一个Int字段）...

2019-07-31 19:13:03 534

转载 spark_sql 参数调优

spark Sql 参数调优目录前言异常调优 spark.sql.hive.convertMetastoreParquet spark.sql.files.ignoreMissingFiles && spark.sql.files.ignoreCorruptFiles spark.sql.hive.verifyPartitionPath spark.fil...

2019-07-26 10:58:17 2198

原创 hdfs 的操作命令

1 hdfs dfs -ls / 查看根目录下所有文件2 hdfs dfs -ls -R / 查看根目录下递归查看所有文件和文件夹3 hdfs dfs -mkdir /mydir1 创建一个名称为mydir1的文件夹4 hdfs dfs -mkdir -p /mydir2/mydir22/mydir222 递归的创建文件夹5 hdfs dfs -moveFromLocal 把本...

2019-04-08 12:55:24 980

原创 MapReduce的运行机制和原理

一简述MapReduce的运行机制答：MapReduce主要有以下的八个运行步骤整个流程如图所示。1 第一步，读取文件。这个时候需要用到Inputformat（默认是TextInputformat）会通过getSplits方法对输入的文件进行逻辑规划并切分得到splits,有多少个split就启动多少个MapTask.split与tasks是默认的一一对应的。第二步，将文件切分为s...

2019-03-20 16:28:51 1217

原创 HDFS的特性和读写原理

hadoop主要由两部分组成，存储系统和计算系统。今天写的是存储系统HDFS.1问 HDFS主要由哪些特性？答：1HDFS是基于主从架构的2 由分块机制和副本机制3 元数据：首先，元数据是描述数据的数据。一个文件拆分成多少个block块哪个block块放在哪台机器，哪个block快存文件的哪部分数据。其次，元数据保存在内存和磁盘中不仅仅是内存中。防止服务挂了数据丢失，存在内存中是...

2019-03-12 19:37:47 793

原创 hadoop 2.x版本的结构架构

hadoop主要有两个系统组成。文件存储系统，资源调度系统。文件存储系统HDFS：namenode 主节点主要用于维护元数据信息。secondaryNamenode 辅助namenode 管理元数据信息。datanode 存储各种各样的数据。资源调度系统 yarn平台resourceManager 主要两个作用，接受用户的计算任务请求，分配资源。nodeManager 主要用...

2019-03-12 19:15:27 1209

原创 zookeeper的简要知识点

1 简述一下zookeeper的工作原理答：1 zookeeper是分布式的小文件系统，每个文件最大只有1M.。2 zookeeper是高可用的协调服务。3 zookeeper的底层有选举机制。有leader和follower,所以系统基本上上2n-1台机器。4 zookeeper的数据类型是森林结构，储层文件都是基于节点。2 zookeeper解决了企业中的什么问题？答：解决了全局...

2019-03-10 10:24:54 124

weixin_43363407的博客