BigData
文章平均质量分 79
T-Janey
数据工程师
展开
-
海量数据处理算法—Bloom Filter
1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判...转载 2018-02-24 10:40:49 · 229 阅读 · 0 评论 -
hadoop-yarn 排查集群docker 升级导致 container dead 原因
一、升级原因在Docker 17.0.6版本中,由于docker hang死的bug,导致该物理机上的容器都有问题,以及hang 死后unknow host 异常 减少任务分配不上资源的现象基于以上两个问题,做了以下升级:Docker 版本升级 17.0.6 -> 18.0.3二、升级中遇到的问题container 物理内存超 被kill 掉 连接异常三、问题分析...原创 2019-05-24 11:26:32 · 367 阅读 · 0 评论 -
升级 spark 2.3问题:Spark Streaming日志级别设置,最小堆内存设置
一、内存问题 1、旧集群 spark 1.6.1 jdk 1.7 或 1.8 jvm 堆内存分配,直接分配的为driver申请的内存(最大、最小堆内存相等) 2、新集群 spark 2.3. jdk 1.8 jvm 堆内存分...原创 2018-12-03 17:10:52 · 1463 阅读 · 0 评论 -
Hadoop 3.1.0 ErasureCodingPolicy导致spark streaming的任务失败问题分析
一、ErasureCodePolicy问题,导致streaming任务退出1、任务失败的原因,当执行block时有uncaught 异常时,stop sparkcontext,如下具体源码错误路径,感兴趣的,可以根据错误日志跟踪一下,这里就不具体跟踪了,只显示比较重要的源码信息AsyncEventQueue private val dispatchThread = new Thre...原创 2018-12-03 12:18:10 · 2095 阅读 · 1 评论 -
Geohash算法
1. 引言 GeoHash本质上是空间索引的一种方式,其基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码。以GeoHash方式建立空间索引,可以提高对空间poi数据进行经纬度检索的效率。2. 认识Geohash GeoHash将二维的经纬度转换成字符串,比如下图展示了北京9个区域的GeoHash字符串,分别是WX...原创 2018-11-23 15:54:08 · 1698 阅读 · 0 评论 -
Spark-core-问题记录:join shuffle
1、partitionBy:当hashCode为负时,抛异常:java.lang.ArrayIndexOutOfBoundsException, at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:151)2、rdd.part...原创 2018-07-03 17:54:58 · 873 阅读 · 0 评论 -
Spark 日志错误信息分析及解决方案:log4j、SLF4j
Spark 日志错误信息异常信息:(解决了好久的问题)1、log4j错误类「org.apache.log4j.Appender」被加载,「org.apache.log4j.ConsoleAppender」不能分配给「org.apache.log4j.Appender」,导致sparkContext初始化失败log4j:ERROR A "org.apache.log4j.ConsoleAppende...原创 2018-07-03 17:50:08 · 4169 阅读 · 1 评论 -
Lost executor 原因分析及解决方案-记录
Lost executornode丢失原因: 1、有时候是物理机导致的node暂时丢失,物理机恢复后 容器也自己恢复。如io过高 2、另一种就是物理机故障了 容器真丢了异常信息: 1、ERROR cluster.YarnScheduler: Lost executor 2、ERROR client.TransportClient: Failed to send RP...原创 2018-07-03 17:47:22 · 8405 阅读 · 1 评论 -
Spark 动态(统一)内存管理模型
一.回顾在前面的一篇文章中我们介绍了spark静态内存管理模式以及相关知识https://blog.csdn.net/anitinaj/article/details/80901328在上一篇文章末尾,我们陈述了传统spark静态内存管理模式的局限性:(1) 没有适用于所有应用的默认配置,通常需要开发人员针对不同的应用进行不同的参数配置。比如根据任务的执行逻辑,调整shuffle和stor...原创 2018-07-03 17:03:04 · 1566 阅读 · 0 评论 -
Spark 静态内存管理
Spark 静态内存管理详解一、 内容简介 spark从1.6开始引入了动态内存管理模式,即执行内存和存储内存之间可以互相抢占。spark提供两种内存分配模式,即:静态内存管理和动态内存管理。该系列文章分别对这两种内存管理模式的优缺点以及设计原理进行了分析。该篇文章主要针对spark1.6静态内存管理进行了分析与说明。动态内存管理以及其他的调优文章后期会陆续...原创 2018-07-03 17:08:58 · 3539 阅读 · 0 评论 -
Bloom Filter
哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一个位置来访问记录,以加快查找的速度。下面是一个典型...原创 2018-03-27 10:30:00 · 156 阅读 · 0 评论 -
Airflow 介绍
官网http://airflow.apache.org/关健概念:http://airflow.apache.org/concepts.htmlBashOperator:- 执行bash命令(executes a bash command)BranchPythonOperator:- 跟据条件执行下游任务,如果条件不符合,则不执行下游PythonOperator:- 执行任意pytho...原创 2019-07-23 17:41:24 · 2703 阅读 · 0 评论