2018年07月_T-Janey

原创 Spark-core-问题记录：join shuffle

1、partitionBy：当hashCode为负时，抛异常：java.lang.ArrayIndexOutOfBoundsException， at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:151)2、rdd.part...

2018-07-03 17:54:58 854

原创 Spark 日志错误信息分析及解决方案：log4j、SLF4j

Spark 日志错误信息异常信息：(解决了好久的问题)1、log4j错误类「org.apache.log4j.Appender」被加载，「org.apache.log4j.ConsoleAppender」不能分配给「org.apache.log4j.Appender」，导致sparkContext初始化失败log4j:ERROR A "org.apache.log4j.ConsoleAppende...

2018-07-03 17:50:08 4061 1

转载 HashMap实现原理分析

1. HashMap的数据结构数据结构中有数组和链表来实现对数据的存储，但这两者基本上是两个极端。数组数组存储区间是连续的，占用内存严重，故空间复杂的很大。但数组的二分查找时间复杂度小，为O(1)；数组的特点是：寻址容易，插入和删除困难；链表链表存储区间离散，占用内存比较宽松，故空间复杂度很小，但时间复杂度很大，达O（N）。链表的特点是：寻址困难，插入和删除容易。哈希表那么我们能不能综...

2018-07-09 17:47:43 110

转载 Java内存模型

Java内存模型即Java Memory Model，简称JMM。JMM定义了Java 虚拟机(JVM)在计算机内存(RAM)中的工作方式。JVM是整个计算机虚拟模型，所以JMM是隶属于JVM的。如果我们要想深入了解Java并发编程，就要先理解好Java内存模型。Java内存模型定义了多线程之间共享变量的可见性以及如何在需要的时候对共享变量进行同步。原始的Java内存模型效率并不是很理想，因此Ja...

2018-07-04 18:04:12 181

转载 Java 内存区域和GC机制

Java系列笔记(3) - Java 内存区域和GC机制目录Java垃圾回收概况Java内存区域Java对象的访问方式Java内存分配机制Java GC机制垃圾收集器Java垃圾回收概况　　Java GC（Garbage Collection，垃圾收集，垃圾回收）机制，是Java与C++/C的主要区别之一，作为Java开发者，一般不需要专门编写内存回收和垃圾清理代码，对内存泄露和溢出的问题，也不需...

2018-07-04 17:39:33 193

原创 Lost executor 原因分析及解决方案-记录

Lost executornode丢失原因： 1、有时候是物理机导致的node暂时丢失，物理机恢复后容器也自己恢复。如io过高 2、另一种就是物理机故障了容器真丢了异常信息： 1、ERROR cluster.YarnScheduler: Lost executor 2、ERROR client.TransportClient: Failed to send RP...

2018-07-03 17:47:22 8242 1

原创 spark streaming 踩过的那些坑

系统背景spark streaming + Kafka高级API receiver 目前资源分配（现在系统比较稳定的资源分配），独立集群 --driver-memory 50G --executor-memory 8G --num-executors 11 --executor-cores 5广播变量1. 广播变量的初始化 1.1.executor...

2018-07-03 17:24:40 2375

原创 spark streaming基于Kafka的开发

spark streaming使用Kafka数据源进行数据处理，本文侧重讲述实践使用。一、基于receiver的方式在使用receiver的时候，如果receiver和partition分配不当，很容易造成数据倾斜，使个别executor工作繁重，拖累整体处理速度。receiver线程分配和partition的关系：假如topic A，分配了3个receiver，topic A有5个partiti...

2018-07-03 17:20:26 225

原创 Linux备份-删除指定日期内文件

#!/usr/bin/env bashsource /etc/profileecho " *************** start filter *************** "# get befor six month last day#m0=$(date -d "$(date -d 'month' +%Y%m01) -1 day" +%Y%m%d)#echo ${m0}#m1=$(dat...

2018-07-03 17:17:35 994

原创 Linux笔记：定时任务和文件操作

查看定时任务crontab -l注册定时任务 crontab -e然后就像 vim 一样编辑自己的定时任务。如： * * * * * . /home/hadoop/timer/check_job.sh >> /home/hadoop/timer/logs/check_job.log定时任务解析 *和*之间的空格，是必须的 *分别代表：分，时，日...

2018-07-03 17:12:53 743

原创 Spark 静态内存管理

Spark 静态内存管理详解一、内容简介 spark从1.6开始引入了动态内存管理模式，即执行内存和存储内存之间可以互相抢占。spark提供两种内存分配模式，即：静态内存管理和动态内存管理。该系列文章分别对这两种内存管理模式的优缺点以及设计原理进行了分析。该篇文章主要针对spark1.6静态内存管理进行了分析与说明。动态内存管理以及其他的调优文章后期会陆续...

2018-07-03 17:08:58 3511

原创 Spark 动态(统一)内存管理模型

一.回顾在前面的一篇文章中我们介绍了spark静态内存管理模式以及相关知识https://blog.csdn.net/anitinaj/article/details/80901328在上一篇文章末尾，我们陈述了传统spark静态内存管理模式的局限性：（1）没有适用于所有应用的默认配置，通常需要开发人员针对不同的应用进行不同的参数配置。比如根据任务的执行逻辑，调整shuffle和stor...

2018-07-03 17:03:04 1528

转载序列化和反序列化的底层实现原理是什么

序列化和反序列化作为Java里一个较为基础的知识点，大家心里也有那么几句要说的，但我相信很多小伙伴掌握的也就是那么几句而已，如果再深究问一下Java如何实现序列化和反序列化的，就可能不知所措了！遥记当年也被问了这一个问题，自信满满的说了一大堆，什么是序列化、什么是反序列化、什么场景的时候才会用到等，然后面试官说：那你能说一下序列化和反序列化底层是如何实现的吗？一脸懵逼，然后回家等通知！一、基本概念...

2018-07-02 14:37:03 3821

T_Janey