spark
文章平均质量分 86
weixin_43363407
这个作者很懒,什么都没留下…
展开
-
scala 实现flink cdc
导入相关pom 文件 <properties> <scala.version>2.11.0</scala.version> <flink.version>1.12.3</flink.version> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.c原创 2021-08-06 15:43:27 · 909 阅读 · 1 评论 -
hive自定义UDTF函数的编写,注册和使用
hive在查询的时候 需要输入一行返回多行的时候,就需要写自定义UDTF函数了。例如实现下面的功能:Line:"spark,hive,hadoop,hdfs,flink" Myudtf(line, “,”)返回如下:sparkhivehadoophdfsflink添加pom依赖org.apache.hivehive-exec1.2.1代码如下:package hi...原创 2020-03-04 21:27:50 · 549 阅读 · 0 评论 -
scala读文件和写入文件
import java.io.{File, PrintWriter}/*本地文件内容 有string 类型的是小写 现在要换成大写 并写入本地文件*/import scala.collection.mutableimport scala.io.{BufferedSource, Source}object ParseToTxt {def main(args: Array[String]...原创 2020-02-25 17:14:50 · 682 阅读 · 0 评论 -
spark_sql 参数调优
spark Sql 参数调优目录前言 异常调优 spark.sql.hive.convertMetastoreParquet spark.sql.files.ignoreMissingFiles && spark.sql.files.ignoreCorruptFiles spark.sql.hive.verifyPartitionPath spark.fil...转载 2019-07-26 10:58:17 · 2116 阅读 · 0 评论 -
spark 内存,GC及数据结构调优
一,基本概述调优内存的使用主要有三个方面的考虑:对象的内存占用量(你可能希望整个数据集都适合内存),访问这些数据的开销,垃圾回收的负载。默认情况下,java的对象是可以快速访问的,但是相比于内部的原始数据消耗估计2-5倍的空间。主要归于下面三个原因:1),每个不同的Java对象都有一个“对象头”,它大约是16个字节,包含一个指向它的类的指针。对于一个数据很少的对象(比如一个Int字段)...原创 2019-07-31 19:13:03 · 524 阅读 · 0 评论 -
JVM堆内存溢出后,其他线程是否可继续工作?
最近网上出现一个美团面试题:“一个线程OOM后,其他线程还能运行吗?”。我看网上出现了很多不靠谱的答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。由于题目中给出的OOM,java中OOM又分很多类型;比如:堆溢出(“java.lang.OutOfMemoryError: Java heap space”);永久带溢出(“java.lang.Ou...原创 2019-07-31 19:20:27 · 176 阅读 · 0 评论 -
JVM的垃圾回收算法
jvm垃圾回收主要有以下的几种算法,面试的时候 也常常的被问道这类问题。所以,今天就稍微的整理一下,做一个总结。记得很久前一次面试,当时问我spark的各种调优,我自我感觉回答得都很不错,然后面试官说:你所讲的这些性能调优,资源参数调优,都是运行在JVM上的。你讲一下JVM的垃圾回收算法。所以今天就整理这个了。首先,问:如何判断对象已经消亡?答:1 引用计数算法。一个对象如果没有任何引用指向它...原创 2019-08-07 14:22:54 · 91 阅读 · 0 评论