自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 ES读写原理详解和hive推送ES案例

目录 一、ES使用场景 1.1 存储数据(基础) 1.2 搜索(核心能力) 1.3 数据分析和可视化(核心能力) 二、ES的原理 2.1 ES如何实现分布式? 2.2 ES读写数据的原理 2.2.1 写入相关的几个问题 2.2.2 写入过程 2.2.3 写入shard 2.2...

2020-04-22 11:04:38 277 0

原创 SparkSQL in中使用子查询耗时高如何优化

目录 一、背景 二、用join替代in 三、用join替换in且map端Join​ 四、用Join替换in的坑 一、背景 经常遇到MySQL表太大,频繁查询影响性能,需要把MySQL数据同步到hive(通过解析MySQL binlog同步数据到hive),MySQL表一般会有creat...

2019-08-08 13:35:50 588 0

原创 箱形图(python画箱线图)

学习笔记 目录 箱形图 价值 局限性 Python画图 箱形图 如下灰色框里的就是箱形图(英文:Box plot):又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。 箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式...

2019-04-18 21:34:17 21077 4

原创 上亿条数据,如何比对并发现两个表数据差异

目录 一、背景 二、分析流程 三、验数方法 3.1 数据量级比对 3.2 一致性比对 3.2.1勾稽验证+md5方法 3.2.2 暴力比对法 3.3差异数据发现 四、总结 一、背景 做数据,经常遇到数据验证,很烦很枯燥,即耗时又耗人,但又必须去做。如何去做数据验证,并标准化整...

2019-04-13 12:22:17 1622 0

原创 Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段 本文于2017-07-16号书写 Spark任务优化 本节主要从内存调优、高性能算子、数据结构优...

2018-07-24 11:15:33 8979 5

原创 Spark cache/persist区别和cache使用误区分析

Spark cache的用法及其误区: 一、使用Cache注意下面三点 (1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。 (2)cache不是一个action,运行它的时候没有执行一个作业。 (3)...

2018-01-11 17:59:00 12996 5

原创 spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决办 1、错误描述: Exception in thread "main" ...

2017-10-11 16:41:56 6974 1

原创 JVM架构和GC垃圾回收机制(JVM面试不用愁)

JVM架构和GC垃圾回收机制详解 JVM架构图分析 下图:参考网络+书籍,如有侵权请见谅 (想了解Hadoop内存溢出请看: Hadoop内存溢出(OOM)分类、参数调优化) JVM被分为三个主要的子系统 (1)类加载器子系统(2)运行时数据区(3)执行引擎 1. 类加载器子系统 ...

2017-06-10 16:49:15 58034 16

原创 MapReduce过程详解及其性能优化

废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭...

2017-05-16 21:40:07 25620 9

原创 spark toDS() toDF()和import spark.implicits._ 报红,无法导入

因为是toDS() toDF() 从import spark.implicits._ 里面来的 错误代码 问题就出现在这里的spark上,这里的spark不是某个包下面的,而是SparkSession.builder()对应的变量值,下面是正确的写法 ...

2019-10-24 16:41:47 2045 0

转载 Spark Executor内存管理

我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调优;在出现各种内存问题时,能够摸清头脑,找到哪块内存区域出现问题。 首先我们...

2019-10-23 21:00:27 269 0

原创 百亿条数据复杂业务场景下通用归因模型设计实现

1 背景 互联网流量应用的一个重要方面是计算各页面、入口的转化,深度洞察用户行为轨迹,数据驱动精细化运营,对一些大公司来说也是如此。如何建设公司级统一口径转化导流分析数据,满足多个业务对转化数据的需求,为公司各业务部门提供转化分析数据(各入口或者页面带来的商家、活动页、预定、订单),基于此我们设...

2019-10-23 10:50:21 573 0

原创 从0构建Scala程序实现wordcount

写pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche...

2019-10-23 10:48:07 51 0

原创 chrome全屏模式书签栏/工具栏消失如何处理

chrome全屏模式书签栏/工具栏消失如何处理 最上方的‘视图’--‘在全屏模式下始终显示工具栏' 切换全屏模式快捷键:control+command+f 快捷键 全屏模式下显示工具栏快捷键:shift+command+f 快捷键 ...

2019-07-23 14:57:23 3981 0

原创 Presto如何使用md5

select md5(to_utf8( concat( if(id is null, '-', cast(id as VARCHAR)), if(city_id is null, '-', cast(city_id as VARCHAR)), ...

2019-06-18 19:54:54 623 0

原创 hive表新增字段和字段注释修改

hive表新增字段,修改字段的注释

2018-01-15 17:24:50 79711 1

原创 Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30 2550 0

原创 spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

1、背景:     控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令: hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2...

2017-11-23 16:37:49 6357 7

原创 Spark统一内存管理:UnifiedMemoryManager

@DT大数据梦工厂 Spark统一内存管理:UnifiedMemoryManager,内存管理图: Spark静态内存管理:StaticMemoryManager请看:http://blog.csdn.net/aijiudu/article/details/77885953 一、统一内存...

2017-09-19 17:39:09 1645 0

原创 Spark静态内存管理:StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小 。这两个区域是完全分离的,使得两者都不能从另一个借用内存。 例如Executor的可...

2017-09-07 20:00:58 618 0

原创 Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40 1205 0

原创 Yarn的基本工作流程

Yarn基本工作流程图和步骤解释

2017-07-15 23:11:33 1391 0

原创 Hadoop内存溢出(OOM)分类、参数调优化(代码模拟内存溢出类型并分析原因)

MapReduce作业运行过程中内存溢出错误分类 1、        Mapper/Reducer阶段JVM内存溢出(一般都是堆) 1)       JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常: 第一种:“java.lang.OutOfMemoryError:” GC over...

2017-07-15 17:16:45 7749 0

原创 Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化 对spark广播、累加器和RDD持久化的介绍,并且通过代码实战演示

2017-02-19 21:02:28 3524 0

原创 第五课:彻底精通Scala隐式转换和并发编程及Spark源码阅读

彻底精通Scala隐式转换和并发编程及Spark源码阅读

2016-12-12 13:22:17 459 0

原创 第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等

为什么要队列设置??? 因为Hadoop大数据生态系统上面会运行很多作业,为了更好的管理资源限制的要求Hadoop提出了队列,队列就是不同类型资源分配和使用的标签。 JVM重用 Hadoop的JVM是可以重用的,相当于spark的线程的重用。JVM 重用在有很多小文件的时候非常有用 hi...

2016-12-10 18:19:57 3053 0

原创 第93课:Hive中的内置函数、UDF、UDAF实战

Hive中的内置函数、UDF、UDAF实战

2016-12-10 18:17:36 906 0

原创 第92课,Hive中的Array,Map,Struct及自定义数据类型案例实战。

Hive中的Array,Map,Struct及自定义数据类型案例实战。

2016-12-10 18:13:43 2388 0

原创 第91课:Hive中Index和Bucket案例实战及存储类型实战详解

Hive中Index和Bucket案例实战及存储类型实战详解

2016-12-10 18:04:00 505 0

原创 Scala模式匹配、类型系统彻底精通与Spark源码阅读

Scala模式匹配、类型系统彻底精通与Spark源码阅读

2016-12-09 21:21:50 471 0

原创 第90课:Hive中电影评价系统案例数据建模、数据过滤、Join多表关联、Map端Join、原理剖析等

第90课:Hive中电影评价系统案例数据建模、数据过滤、Join多表关联、Map端Join、原理剖析

2016-12-08 12:00:31 660 0

原创 ubuntu16.04.1 mysql安装和卸载

删除 mysql sudo apt-get autoremove --purge mysql-server-* sudo apt-get remove mysql-server sudo apt-get autoremove mysql-server sudo apt-get remo...

2016-11-29 15:33:46 2634 0

提示
确定要删除当前文章?
取消 删除