自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 考拉验数(自动化验数)设计方案和实现

目录前言一、 背景&现状二、 目标三、 收益&效果衡量四、 技术方案&实现五、 技术实现六、系统展示前言首先说一下名字的由来,憨萌憨萌的考拉 ???????????? 考拉 考拉(验数)特点 憨萌小考拉特性 提高业务、开发人员的工作效率,用了考拉(验数工具)提高了效率,有很多的时间可以用来休息喽 它每天18个小时处于睡

2021-04-08 14:48:25 2168 7

原创 百亿条数据复杂业务场景下通用归因模型设计实现

1 背景互联网流量应用的一个重要方面是计算各页面、入口的转化,深度洞察用户行为轨迹,数据驱动精细化运营,对一些大公司来说也是如此。如何建设公司级统一口径转化导流分析数据,满足多个业务对转化数据的需求,为公司各业务部门提供转化分析数据(各入口或者页面带来的商家、活动页、预定、订单),基于此我们设计了转化归因来满足业务需求。归因又叫挂单:用户打开某一APP,在浏览N个页面之后,遇到有下单意向的...

2019-10-23 10:50:21 2205

原创 SparkSQL in中使用子查询耗时高如何优化

目录一、背景二、用join替代in三、用join替换in且map端Join​四、用Join替换in的坑一、背景经常遇到MySQL表太大,频繁查询影响性能,需要把MySQL数据同步到hive(通过解析MySQL binlog同步数据到hive),MySQL表一般会有create_time和update_time字段,如何同步到hive方便查询呢?我们采用的方式是按天快照,更新...

2019-08-08 13:35:50 5553

原创 JVM架构和GC垃圾回收机制(JVM面试不用愁)

JVM架构和GC垃圾回收机制详解JVM架构图分析下图:参考网络+书籍,如有侵权请见谅 (想了解Hadoop内存溢出请看: Hadoop内存溢出(OOM)分类、参数调优化)JVM被分为三个主要的子系统(1)类加载器子系统(2)运行时数据区(3)执行引擎1. 类加载器子系统Java的动态类加载功能是由类加载器子系统处理。当它在运行时(不是编译时)首次引用一个类时,它加载、链...

2017-06-10 16:49:15 110221 41

原创 MapReduce过程详解及其性能优化

废话不说直接来一张图如下:从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; Mapper数太小,并发度过小,Job执行时间过长,无...

2017-05-16 21:40:07 41172 18

原创 Mac发现有的软件不能上网的破解之法

Mac发现有的软件不能上网的破解之法

2023-08-21 19:57:45 2270

原创 维度建模基本流程总结

数据RD进行业务调研和数据现状调研,产出符合相关模版规范的业务知识文档和数据现状文档。数据PM也会调研相关业务产出需求设计文档,三方参与需求评审,评审通过后基建数据RD进行需求拆解,产出技术方案,三方进行技术方案评审,如果技术方案评审通过进入基建需求池、排期、开发、上线并做相关数据运营动作。

2023-02-21 10:07:33 1238 1

原创 数仓建模(维度建模)

本文主要介绍什么是建模?模型的好处?建模的方法和维度建模。从基本概念、维度、事实、为何分层和建模步骤等角度详细介绍维度建模。

2022-07-25 21:39:17 3092

原创 git 把代码恢复到某个提交的版本

git 把代码恢复到某个提交的版本

2022-06-15 14:25:13 750

原创 Kafka架构、高性能和高可用性分析

本文主要介绍Kafka架构、高性能、高可用以及mac本地安装kafka

2022-02-21 20:33:51 5736

原创 mac升级monterey后,根目录无法写入文件,亲测有效

mac升级后,根目录无法写入文件,无法创建data文件夹等。

2022-02-16 16:04:39 3425 1

原创 hive编译、调度执行原理和Join、group by、distribute by及排序原理

本文首先介绍hive系统架构、编译过程和查询执行流程,接下来介绍hive编译形成的MRjob调度过程和MR原理,最后介绍了常见算子Join、group by、distribute by及排序的原理。一、hive编译和执行1.1 hive系统架构1.2hive编译过程1.3hive查询执行流程二、job调度Application在Yarn中的执行过程,如需了解详细执行过程请点击:Yarn的执行过程细分三、job执行引擎(MapReduce原理)MapRedu..

2021-05-04 15:23:19 1524 1

原创 hive常用窗口函数和行列转化函数

一、Hive常用窗口函数排序类:ROW_NUMBER()、RANK()、DENSE_RANK()等取值类:FIRST_VALUE(col)、LAST_VALUE(col)、LEAD(col,n,DEFAULT)、LAG(col,n,DEFAULT)等聚合类:COUNT()、SUM()、MIN()、MAX()、AVG()等二、应用场景用于分组排序、动态Group By、Top N、累计计算、层次查询。三、应用举例3.1 分组排序窗口函数举例分组排序 解释 ROW_NUMB

2021-05-04 15:10:26 857 1

原创 Hive基本语法、基本原理和优化方法

背景为方便很多新同学的学习,介绍企业常用的hive工具,帮助大家快速的融入。一、Hive简介1.1 怎么来Facebook有一帮人牛人觉得写MapReduce任务太费事了,然后搞了一个支持类SQL开发工具,把sql转化为MapReduce任务,并发执行。1.2 是什么基于Hadoop的一个数据仓库工具;结构化数据映射成表,通过类SQL语言查询和分析数据,称为HiveQL(HQL);Hive将SQL编译转化为MapReduce job,通过Hadoop集群执行。如下如:hive

2021-04-28 20:40:59 2459

原创 Hadoop和Spark区别,为什么Spark比Hadoop处理速度快?

h s 原理 (并行计算 MR原理) Hadoop作业称为Job,Job分为Map、Shuffle和Reduce阶段,MAP和Reduce的Task都基于JVM进程运行的。MAP阶段:从HDFS读取数据,split文件产生task,通过对应数量的map处理,map输出的每一个键值对通过key的hash值计算一个partition,数据通过环形缓冲区,sort、spill、merge生成data和...

2021-04-20 20:36:31 1693

原创 ES读写原理详解和hive推送ES案例

目录一、ES使用场景1.1 存储数据(基础)1.2 搜索(核心能力)1.3 数据分析和可视化(核心能力)二、ES的原理2.1 ES如何实现分布式?2.2 ES读写数据的原理2.2.1 写入相关的几个问题2.2.2 写入过程2.2.3 写入shard2.2.4 merge策略2.2.5 存储目录结构2.2.5 ES读取数据的过程2.3 E...

2020-04-22 11:04:38 3946

原创 spark toDS() toDF()和import spark.implicits._ 报红,无法导入

因为是toDS() toDF() 从import spark.implicits._ 里面来的错误代码问题就出现在这里的spark上,这里的spark不是某个包下面的,而是SparkSession.builder()对应的变量值,下面是正确的写法...

2019-10-24 16:41:47 6290

转载 Spark Executor内存管理

我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调优;在出现各种内存问题时,能够摸清头脑,找到哪块内存区域出现问题。首先我们知道在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种...

2019-10-23 21:00:27 2988

原创 chrome全屏模式书签栏/工具栏消失如何处理

chrome全屏模式书签栏/工具栏消失如何处理最上方的‘视图’--‘在全屏模式下始终显示工具栏'切换全屏模式快捷键:control+command+f 快捷键全屏模式下显示工具栏快捷键:shift+command+f 快捷键...

2019-07-23 14:57:23 27125 1

原创 Presto如何使用md5

selectmd5(to_utf8(concat( if(id is null, '-', cast(id as VARCHAR)), if(city_id is null, '-', cast(city_id as VARCHAR)), if(user_id is null, '-', cast(user_id as VARCHAR)), ...

2019-06-18 19:54:54 2722 1

原创 箱形图(python画箱线图)

学习笔记目录箱形图价值局限性Python画图箱形图如下灰色框里的就是箱形图(英文:Box plot):又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。五数概括法:即用下面的五个数来概括数据(最小值;第1四分位数(Q1);中位...

2019-04-18 21:34:17 89197 7

原创 上亿条数据,如何比对并发现两个表数据差异

目录一、背景二、分析流程三、验数方法3.1 数据量级比对3.2 一致性比对3.2.1勾稽验证+md5方法3.2.2 暴力比对法3.3差异数据发现四、总结一、背景做数据,经常遇到数据验证,很烦很枯燥,即耗时又耗人,但又必须去做。如何去做数据验证,并标准化整个流程,让验数变得轻松。二、分析流程……相同表结构数据验证:比如修改表逻辑相似表结...

2019-04-13 12:22:17 15291 5

原创 Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段本文于2017-07-16号书写Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一...

2018-07-24 11:15:33 19760 9

原创 hive表新增字段和字段注释修改

hive表新增字段,修改字段的注释

2018-01-15 17:24:50 142780 2

原创 Spark cache/persist区别和cache使用误区分析

Spark cache的用法及其误区:一、使用Cache注意下面三点(1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。(2)cache不是一个action,运行它的时候没有执行一个作业。(3)cache缓存如何让它失效:unpersist,它是立即执行的。persist是lazy级别的(没有计...

2018-01-11 17:59:00 21059 5

原创 Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30 3703

原创 spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

1、背景:    控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999 -files -blocks;stripe个数查看命令...

2017-11-23 16:37:49 11700 9

原创 spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决办1、错误描述:Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for...

2017-10-11 16:41:56 14493 2

原创 Spark统一内存管理:UnifiedMemoryManager

@DT大数据梦工厂Spark统一内存管理:UnifiedMemoryManager,内存管理图:Spark静态内存管理:StaticMemoryManager请看:http://blog.csdn.net/aijiudu/article/details/77885953一、统一内存管理:Execution和Storage之间是软边界,任一方都可以从另一方借用内存。Execution...

2017-09-19 17:39:09 2171

原创 Spark静态内存管理:StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小 。这两个区域是完全分离的,使得两者都不能从另一个借用内存。例如Executor的可用Heap大小是10G,实际上Spark只能使用90%,也就是9G的大小,是由spark.storag...

2017-09-07 20:00:58 843

原创 Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40 2080

原创 Yarn的基本工作流程

Yarn基本工作流程图和步骤解释

2017-07-15 23:11:33 2561

原创 Hadoop内存溢出(OOM)分类、参数调优化(代码模拟内存溢出类型并分析原因)

MapReduce作业运行过程中内存溢出错误分类1、        Mapper/Reducer阶段JVM内存溢出(一般都是堆)1)       JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常:第一种:“java.lang.OutOfMemoryError:” GC overhead limit exceeded;第二种:“Error: Java heapspace

2017-07-15 17:16:45 14845 1

原创 Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化对spark广播、累加器和RDD持久化的介绍,并且通过代码实战演示

2017-02-19 21:02:28 5660

原创 第五课:彻底精通Scala隐式转换和并发编程及Spark源码阅读

彻底精通Scala隐式转换和并发编程及Spark源码阅读

2016-12-12 13:22:17 594

原创 第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等

为什么要队列设置???因为Hadoop大数据生态系统上面会运行很多作业,为了更好的管理资源限制的要求Hadoop提出了队列,队列就是不同类型资源分配和使用的标签。JVM重用Hadoop的JVM是可以重用的,相当于spark的线程的重用。JVM 重用在有很多小文件的时候非常有用hive> EXPLAIN select * from employeeforhaving;OK...

2016-12-10 18:19:57 3583

原创 第93课:Hive中的内置函数、UDF、UDAF实战

Hive中的内置函数、UDF、UDAF实战

2016-12-10 18:17:36 1286

原创 第92课,Hive中的Array,Map,Struct及自定义数据类型案例实战。

Hive中的Array,Map,Struct及自定义数据类型案例实战。

2016-12-10 18:13:43 3062

原创 第91课:Hive中Index和Bucket案例实战及存储类型实战详解

Hive中Index和Bucket案例实战及存储类型实战详解

2016-12-10 18:04:00 782

原创 Scala模式匹配、类型系统彻底精通与Spark源码阅读

Scala模式匹配、类型系统彻底精通与Spark源码阅读

2016-12-09 21:21:50 613

Checkstyle压缩包和使用说明

Checkstyle压缩包和使用说明,Checkstyle是规范代码编写格式的工具类。

2015-09-27

JAVA源代码分析工具比较

介绍了静态代码分析的基本概念及主要技术,随后分别介绍了现有 4 种主流 Java 静态代码分析工具 (Checkstyle,FindBugs,PMD,Jtest),最后从功能、特性等方面对它们进行分析和比较。

2015-09-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除