自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 scala 实现flink cdc

导入相关pom 文件 <properties> <scala.version>2.11.0</scala.version> <flink.version>1.12.3</flink.version> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.c

2021-08-06 15:43:27 952 1

原创 hive自定义UDTF函数的编写,注册和使用

hive在查询的时候 需要输入一行返回多行的时候,就需要写自定义UDTF函数了。例如实现下面的功能:Line:"spark,hive,hadoop,hdfs,flink" Myudtf(line, “,”)返回如下:sparkhivehadoophdfsflink添加pom依赖org.apache.hivehive-exec1.2.1代码如下:package hi...

2020-03-04 21:27:50 587

原创 scala读文件和写入文件

import java.io.{File, PrintWriter}/*本地文件内容 有string 类型的是小写 现在要换成大写 并写入本地文件*/import scala.collection.mutableimport scala.io.{BufferedSource, Source}object ParseToTxt {def main(args: Array[String]...

2020-02-25 17:14:50 717

原创 ElasticSearch写入数据的工作原理是什么?

看文章得标题 就知道,这个问题 也是面试中经常被问道的。所以 简单的做一个小总结。es组件在大数据中的应用中非常的多,可以很很多其他的组建相整合。但是,只要掌握了读写原理,我们基本就能运用自如了。面试的时候问:es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗?我们来分析一下,面试官的心里戏。其实面试官就是要看看你了解不了解 e...

2019-08-14 09:54:07 151

原创 JVM的垃圾回收算法

jvm垃圾回收主要有以下的几种算法,面试的时候 也常常的被问道这类问题。所以,今天就稍微的整理一下,做一个总结。记得很久前一次面试,当时问我spark的各种调优,我自我感觉回答得都很不错,然后面试官说:你所讲的这些性能调优,资源参数调优,都是运行在JVM上的。你讲一下JVM的垃圾回收算法。所以今天就整理这个了。首先,问:如何判断对象已经消亡?答:1 引用计数算法。一个对象如果没有任何引用指向它...

2019-08-07 14:22:54 100

原创 面试中常常被问到的数据模型

最近 想整理一下关于数据模型的知识点,简要的写点文字。(一) ER 模型数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。数据仓库中的 3NF OLTP 系统中的 3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体...

2019-08-01 20:22:40 1305

原创 JVM堆内存溢出后,其他线程是否可继续工作?

最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。由于题目中给出的OOM,java中OOM又分很多类型;比如:堆溢出(“java.lang.OutOfMemoryError: Java heap space”);永久带溢出(“java.lang.Ou...

2019-07-31 19:20:27 207

原创 spark 内存,GC及数据结构调优

一,基本概述调优内存的使用主要有三个方面的考虑:对象的内存占用量(你可能希望整个数据集都适合内存),访问这些数据的开销,垃圾回收的负载。默认情况下,java的对象是可以快速访问的,但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因:1),每个不同的Java对象都有一个“对象头”,它大约是16个字节,包含一个指向它的类的指针。对于一个数据很少的对象(比如一个Int字段)...

2019-07-31 19:13:03 534

转载 spark_sql 参数调优

spark Sql 参数调优目录前言 异常调优 spark.sql.hive.convertMetastoreParquet spark.sql.files.ignoreMissingFiles && spark.sql.files.ignoreCorruptFiles spark.sql.hive.verifyPartitionPath spark.fil...

2019-07-26 10:58:17 2198

原创 hdfs 的操作命令

1 hdfs dfs -ls / 查看根目录下所有文件2 hdfs dfs -ls -R / 查看根目录下递归查看所有文件和文件夹3 hdfs dfs -mkdir /mydir1 创建一个名称为mydir1的文件夹4 hdfs dfs -mkdir -p /mydir2/mydir22/mydir222 递归的创建文件夹5 hdfs dfs -moveFromLocal 把本...

2019-04-08 12:55:24 980

原创 MapReduce的运行机制和原理

一 简述MapReduce的运行机制答:MapReduce主要 有以下的八个运行步骤整个流程如图所示。1 第一步,读取文件。 这个时候需要用到Inputformat(默认是TextInputformat)会通过getSplits方法对输入的文件进行逻辑规划并切分得到splits,有多少个split就启动多少个MapTask.split与tasks是默认的一 一对应的。第二步,将文件切分为s...

2019-03-20 16:28:51 1217

原创 HDFS的特性和读写原理

hadoop主要由两部分组成,存储系统和计算系统。今天写的是存储系统HDFS.1问 HDFS主要由哪些特性?答:1HDFS是基于主从架构的2 由分块机制和副本机制3 元数据:首先,元数据是描述数据的数据。一个文件拆分成多少个block块哪个block块放在哪台机器,哪个block快存文件的哪部分数据。其次,元数据保存在内存和磁盘中 不仅仅是内存中。防止服务挂了 数据丢失,存在内存中是...

2019-03-12 19:37:47 793

原创 hadoop 2.x版本的结构架构

hadoop主要有两个系统组成。文件存储系统,资源调度系统。文件存储系统HDFS:namenode 主节点 主要用于维护元数据信息。secondaryNamenode 辅助namenode 管理元数据信息。datanode 存储各种各样的数据。资源调度系统 yarn平台resourceManager 主要两个作用,接受用户的计算任务请求,分配资源。nodeManager 主要用...

2019-03-12 19:15:27 1209

原创 zookeeper的简要知识点

1 简述一下zookeeper的工作原理答:1 zookeeper是分布式的小文件系统,每个文件最大只有1M.。2 zookeeper是高可用的协调服务。3 zookeeper的底层有选举机制。有leader和follower,所以系统基本上上2n-1台机器。4 zookeeper的数据类型是森林结构,储层文件都是基于节点。2 zookeeper解决了企业中的什么问题?答:解决了全局...

2019-03-10 10:24:54 124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除