- 博客(14)
- 收藏
- 关注
原创 scala 实现flink cdc
导入相关pom 文件 <properties> <scala.version>2.11.0</scala.version> <flink.version>1.12.3</flink.version> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.c
2021-08-06 15:43:27 952 1
原创 hive自定义UDTF函数的编写,注册和使用
hive在查询的时候 需要输入一行返回多行的时候,就需要写自定义UDTF函数了。例如实现下面的功能:Line:"spark,hive,hadoop,hdfs,flink" Myudtf(line, “,”)返回如下:sparkhivehadoophdfsflink添加pom依赖org.apache.hivehive-exec1.2.1代码如下:package hi...
2020-03-04 21:27:50 587
原创 scala读文件和写入文件
import java.io.{File, PrintWriter}/*本地文件内容 有string 类型的是小写 现在要换成大写 并写入本地文件*/import scala.collection.mutableimport scala.io.{BufferedSource, Source}object ParseToTxt {def main(args: Array[String]...
2020-02-25 17:14:50 717
原创 ElasticSearch写入数据的工作原理是什么?
看文章得标题 就知道,这个问题 也是面试中经常被问道的。所以 简单的做一个小总结。es组件在大数据中的应用中非常的多,可以很很多其他的组建相整合。但是,只要掌握了读写原理,我们基本就能运用自如了。面试的时候问:es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗?我们来分析一下,面试官的心里戏。其实面试官就是要看看你了解不了解 e...
2019-08-14 09:54:07 151
原创 JVM的垃圾回收算法
jvm垃圾回收主要有以下的几种算法,面试的时候 也常常的被问道这类问题。所以,今天就稍微的整理一下,做一个总结。记得很久前一次面试,当时问我spark的各种调优,我自我感觉回答得都很不错,然后面试官说:你所讲的这些性能调优,资源参数调优,都是运行在JVM上的。你讲一下JVM的垃圾回收算法。所以今天就整理这个了。首先,问:如何判断对象已经消亡?答:1 引用计数算法。一个对象如果没有任何引用指向它...
2019-08-07 14:22:54 100
原创 面试中常常被问到的数据模型
最近 想整理一下关于数据模型的知识点,简要的写点文字。(一) ER 模型数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。数据仓库中的 3NF OLTP 系统中的 3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体...
2019-08-01 20:22:40 1305
原创 JVM堆内存溢出后,其他线程是否可继续工作?
最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。由于题目中给出的OOM,java中OOM又分很多类型;比如:堆溢出(“java.lang.OutOfMemoryError: Java heap space”);永久带溢出(“java.lang.Ou...
2019-07-31 19:20:27 207
原创 spark 内存,GC及数据结构调优
一,基本概述调优内存的使用主要有三个方面的考虑:对象的内存占用量(你可能希望整个数据集都适合内存),访问这些数据的开销,垃圾回收的负载。默认情况下,java的对象是可以快速访问的,但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因:1),每个不同的Java对象都有一个“对象头”,它大约是16个字节,包含一个指向它的类的指针。对于一个数据很少的对象(比如一个Int字段)...
2019-07-31 19:13:03 534
转载 spark_sql 参数调优
spark Sql 参数调优目录前言 异常调优 spark.sql.hive.convertMetastoreParquet spark.sql.files.ignoreMissingFiles && spark.sql.files.ignoreCorruptFiles spark.sql.hive.verifyPartitionPath spark.fil...
2019-07-26 10:58:17 2198
原创 hdfs 的操作命令
1 hdfs dfs -ls / 查看根目录下所有文件2 hdfs dfs -ls -R / 查看根目录下递归查看所有文件和文件夹3 hdfs dfs -mkdir /mydir1 创建一个名称为mydir1的文件夹4 hdfs dfs -mkdir -p /mydir2/mydir22/mydir222 递归的创建文件夹5 hdfs dfs -moveFromLocal 把本...
2019-04-08 12:55:24 980
原创 MapReduce的运行机制和原理
一 简述MapReduce的运行机制答:MapReduce主要 有以下的八个运行步骤整个流程如图所示。1 第一步,读取文件。 这个时候需要用到Inputformat(默认是TextInputformat)会通过getSplits方法对输入的文件进行逻辑规划并切分得到splits,有多少个split就启动多少个MapTask.split与tasks是默认的一 一对应的。第二步,将文件切分为s...
2019-03-20 16:28:51 1217
原创 HDFS的特性和读写原理
hadoop主要由两部分组成,存储系统和计算系统。今天写的是存储系统HDFS.1问 HDFS主要由哪些特性?答:1HDFS是基于主从架构的2 由分块机制和副本机制3 元数据:首先,元数据是描述数据的数据。一个文件拆分成多少个block块哪个block块放在哪台机器,哪个block快存文件的哪部分数据。其次,元数据保存在内存和磁盘中 不仅仅是内存中。防止服务挂了 数据丢失,存在内存中是...
2019-03-12 19:37:47 793
原创 hadoop 2.x版本的结构架构
hadoop主要有两个系统组成。文件存储系统,资源调度系统。文件存储系统HDFS:namenode 主节点 主要用于维护元数据信息。secondaryNamenode 辅助namenode 管理元数据信息。datanode 存储各种各样的数据。资源调度系统 yarn平台resourceManager 主要两个作用,接受用户的计算任务请求,分配资源。nodeManager 主要用...
2019-03-12 19:15:27 1209
原创 zookeeper的简要知识点
1 简述一下zookeeper的工作原理答:1 zookeeper是分布式的小文件系统,每个文件最大只有1M.。2 zookeeper是高可用的协调服务。3 zookeeper的底层有选举机制。有leader和follower,所以系统基本上上2n-1台机器。4 zookeeper的数据类型是森林结构,储层文件都是基于节点。2 zookeeper解决了企业中的什么问题?答:解决了全局...
2019-03-10 10:24:54 124
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人