吃鱼的羊-CSDN博客

转载实操 | Hive 数据倾斜问题定位排查及解决

实操 | Hive 数据倾斜问题定位排查及解决多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论，直接以例子来实践，排查是否出现了数据倾斜，具体是哪段代码导致的倾斜，怎么解决这段代码的倾斜。当执行过程中任务卡在 99%，大概率是出现了数据倾斜，但是通常我们的 SQL 很大，需要判断出是哪段代码导致的倾斜，才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据

2022-05-13 18:26:32 3596 1

转载 YARN UI界面日志详解二——某个任务详细日志

https://blog.csdn.net/NC_NE/article/details/118281875一、任务日志在哪前面我们已经了解了ResourceManager UI界面参考上一篇文章YARN UI界面日志详解一，我们也看到了下图：就在Applications下的几个状态中，只要你是提交到yarn来管理的任务那一定在这几个状态中的某一个，所以弄清楚这几个状态的日志信息那我们就能知道某个任务的运行状况了。在实际工作中NEW、NEW_SAVING、SUBMITTED这三个用到的概率还

2022-05-13 18:23:22 1576

转载数据挖掘案例（1）：泰坦尼克号-数据挖掘流程

数据挖掘案例（1）：泰坦尼克号-数据挖掘流程_ZhuNian的学习乐园-CSDN博客内容分为四个部分：　　　　第一部分：数据读取与展示　　　　第二部分：特征理解分析　　　　第三部分：数据清洗与预处理　　　　第四部分：建立模型数据和源码移步到Github ： https://github.com/Stormzudi/Data-Mining-Case邮箱：442395572@qq.com目录前言：1. 泰坦尼克号-数据挖掘案例解读2. 数据挖掘流程3. 挑选兵器第一部..

2022-01-23 16:15:52 7326

转载 flink实战--双流join之原理解析

flink实战--双流join之原理解析JOIN简介谈flink双流JOIN之前，我们先谈一下大家最熟悉的mysql表join，我们知道表join有如下几种，具体区别就不在介绍了。那么流的join和表的join有什么区别呢？本文我们介绍一下。CROSS JOIN - 交叉连接，计算笛卡儿积；INNER JOIN - 内连接，返回满足条件的记录；OUTER JOINLEFT - 返回左表所有行，右表不存在补NULL；RIGHT - 返回右表所有行，左边不存在补NULL；FULL -

2021-10-27 22:41:50 2702

转载 mapreduce二次排序详解

mapreduce二次排序详解 - linzch3 - 博客园什么是二次排序待排序的数据具有多个字段，首先对第一个字段排序，再对第一字段相同的行按照第二字段排序，第二次排序不破坏第一次排序的结果，这个过程就称为二次排序。如何在mapreduce中实现二次排序mapreduce的工作原理MR的工作原理如下图（如果看不清可右键新标签页查看）：图片部分数据参考自：Hadoop — MapReduce原理解析相关重点：分区（partitioning）：使得具有相同Key值的键值.

2021-10-22 21:25:40 2630

转载如何建立以指标体系为目标的数仓

如何建立以指标体系为目标的数仓？数仓全景图00建设过程数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模，但是这些步骤比较抽象。为了便于落地，根据经验，总结出上面的七个步骤：1、梳理业务流程2、领域垂直切分3、指标体系梳理4、实体关系调研5、维度梳理6、数仓分层7、物理模型建立。每个步骤不说理论，直接放工具、模板和案例。01业务流程1找到公司核心业务流程，找到谁，在什么环节，做什么关键动作，得到什么结果。2梳理每

2021-10-21 14:50:08 571

原创 hive字段关联类型不一致时，两边都会转换成double类型

--hive字段关联类型不一致时，两边都会转换成double类型explainselect a.*,b.*from (select cast(186994576061124660 as bigint) col ) aleft join (select '186994576061124672' as col ) b on a.col=b.col ;186994576061124660 186994576061124672Reduce Operator Tree:Jo..

2021-08-13 17:40:35 2064

转载 Hive SQL grouping sets 用法

https://www.cnblogs.com/Allen-rg/p/10648231.html概述GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。GROUPING SETS和GROUPING__ID说明在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALLGROU

2021-08-09 16:10:07 1062

转载 hadoop生态之---sqoop导入数据导致精度丢失

用sqoop --query选项在查询的时候将decimal字段concat(field_name)为str类型目前在查询国内论坛没有找到相关的解决办法https://blog.csdn.net/mzqadl/article/details/104526202精度丢失问题异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive1描述：使...

2021-06-22 13:55:39 609

转载 decimal，float和double的区别是什么？

https://zhuanlan.zhihu.com/p/352503879今天复习mysql理论知识，在看常用数据类型的时候发现float和decimal类型都是表示小数，就展开搜索学习了一下区别，分享给大家：表示小数的一共有三种类型：float是单精度，double是双精度，decimal是数字型，它们所占的内存空间不一样，表示的位数也不一样。1、精度：float单精度小数部分能精确到小数点后面6位，用 32 位二进制进行描述 double双精度小数部分能精确到小数点后的15.

2021-06-22 13:54:18 9908

转载 Sqoop exoprt 实战避坑（parquet格式，columns 参数详解）

https://blog.csdn.net/qq_35995514/article/details/108542495目录一、Parquet+Snappy 压缩格式的数据export1.创建表 dwd_report_site_hour2.解决方式二、Sqoop exportcolumns 参数说明1.Hive字段顺序和MySQL保持一致2. Sqoop export columns 中的字段顺序调整3.测试 Sqoop exportcolumns 中减少一个字段...

2021-06-22 13:18:10 754

转载 Sqoop import as-parquetfile时兼容decimal数据类型解决方案(抽取MySQL数据到Hive中，decimal问题)

转载自：https://blog.csdn.net/Sheepflysun/article/details/108247256一、sqoop import 问题总结Sqoop import as-parquetfile时兼容decimal数据类型问题1.建表不压缩，默认存储格式 Textfile>>>>>sqoop 导入不压缩，不指定存储格式1.1 MySQL：decimal————>Hive:decimal, sql 查询该字段，默认为Null值；在hdfs

2021-06-22 13:17:27 1112

转载使用Sqoop导入导出parquet格式的Hive表

1、导入sqoop import \--connect jdbc:mysql://10.10.0.1:3306/test \--username root \--password 123456 \--table session_detail \--hive-import \--hive-overwrite \--hive-databbase xiet \--fields-terminated-by '\001' \--target-dir /user/hive/temp_sqo...

2021-06-22 13:16:55 779

转载 Sqoop 支持 ORC 文件格式

ORC 介绍ORC 文件格式是 Hive 0.11.0 版本引入的一种文件格式。ORC 的引入是为了解决其他 Hive 文件格式的局限性。使用 ORC 文件格式提升 Hive 读取、写入及处理数据的性能。与 RCFile 对比，ORC 文件格式有很多优点：每个 Task 只输出一个文件，降低 NameNode 的负载。 Hive 数据类型支持，包括：datetime、decimal 以及复杂数据类型（struct、list、map、union）。文件中存储轻量级的索引：跳过不通过谓

2021-06-22 13:05:59 2362

转载 sqoop的原生抽取方式与HCatalog抽取的区别

https://blog.csdn.net/m0_49834705/article/details/1111985021. Sqoop抽取的两种方式对于Mysql数据的采集，通常使用Sqoop来进行。通过Sqoop将关系型数据库数据到Hive有两种方式，一种是原生Sqoop API，一种是使用HCatalog API。两种方式略有不同。HCatalog方式与Sqoop方式的参数基本都是相同，只是个别不一样，都是可以实现Sqoop将数据抽取到Hive。Sqoop可以实现Hadoop集群与关...

2021-06-22 13:05:14 1192

转载微信开发中 openID 与 unionID 的区别

今天想介绍关于OpenID和UnionID这两个ID的理解方式。官网解释OpenID用户唯一标识，请注意，在未关注公众号时，用户访问公众号的网页，也会产生一个用户和公众号唯一的OpenIDUnionID通过获取用户基本信息接口，开发者可通过OpenID来获取用户基本信息，而如果开发者拥有多个公众号，可使用以下办法通过UnionID机制来在多公众号之间进行用户帐号互通。只要是同一个微信开放平台帐号下的公众号，用户的UnionID是唯一的。换句话说，同一用户，对同一个微信开放平台帐号下的.

2021-06-03 13:52:38 3173

转载 hive中的mapjoin

在Hive中，common join是很慢的，如果我们是一张大表关联多张小表，可以使用mapjoin加快速度。mapjoin主要有以下参数：hive.auto.convert.join ：是否自动转换为mapjoinhive.mapjoin.smalltable.filesize : 小表的最大文件大小，默认为25000000，即25Mhive.auto.convert.join.noconditionaltask ：是否将多个mapjoin合并为一个hive.auto.convert.jo

2021-05-29 19:45:34 1568

转载 hive中join导致的数据倾斜问题排查, 分析热点值

https://blog.csdn.net/wisgood/article/details/77063606

2021-05-29 13:53:16 1676

转载 Hive中rlike,like,not like，regexp区别与使用详解

https://blog.csdn.net/qq_26442553/article/details/794522211.like的使用详解1.语法规则:格式是A like B,其中A是字符串，B是表达式，表示能否用B去完全匹配A的内容，换句话说能否用B这个表达式去表示A的全部内容，注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号_和%，”_”表示任意单个字符，字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的，使用B从A的第一个字符开始匹配，.

2021-05-27 18:30:30 1904

转载 hivesql中使用join 关联表时where 和 on、join 的执行先后顺序 explain

https://blog.csdn.net/weixin_42903419/article/details/105845410在hive sql 中，总会遇到表关联的同时还需要对左右表进行过滤数据，但是where ，on，join之间的先后顺序是怎么的呢？下面我们来一一探讨一下。环境：hive 0.13.1版本首先我们看一下t1表全表扫描的num rows 是多少：select t1.cust_pty_no,t2.amtfrom a t1left join b t2on t1.c.

2021-05-27 17:19:23 3667

转载 hive hsq中的group by & Distribute by & partition by & cluster by & partitioned by & clustered by

https://blog.csdn.net/qq_16320025/article/details/102976995group by & partition by & Distribute by 首先一定要记住group by分组之后是会组内聚合的而后两者仅仅是分组了，并未有聚合操作partition by是分区 Distribute by 可以理解为分簇partition by是分区区内排序用order byDistribute by 可以理解为分簇簇内排序用s.

2021-05-25 19:12:17 3548 1

转载 HIVE的transform函数的使用

https://blog.csdn.net/Lufei_code/article/details/89492828HIVE的transform函数的使用Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能，适合实现Hive中没有的功能又不想写UDF的情况。例如，按日期统计每天出现的uid数，通常用如下的SQL SELECT date, count(uid) FROM xxx GROUP BY date 但是，如果我想在reduce阶段对每..

2021-05-25 18:58:07 1597

转载 Hive TRANSFORM示例

http://blog.cheyo.net/73.htmlHive的UDF、UDAF需要通过java语言编写。Hive提供了另一种方式，达到自定义UDF和UDAF的目的，但使用方法更简单。这就是TRANSFORM。TRANSFORM语言支持通过更种语言，实现类似于UDF的功能。Hive还提供了MAP和REDUCE这两个关键字。但MAP和REDUCE一般可理解为只是TRANSFORM的别名。并不代表一般是在map阶段或者是在reduce阶段调用。详见官网说明。数据准备创建表： .

2021-05-25 18:41:47 267

转载 maven dependency中scope=compile 和 provided区别

https://blog.csdn.net/mccand1234/article/details/60962283问题再现上次这边朋友问我一个问题，就是他们在pom.xml中的dependency中，看到有一些是provided的情况，比如如下：<span style="color:#000000"><code><span style="color:#006666 !important"><<span style="color:#4f4f4.

2021-05-25 15:12:27 863

转载 Maven中 jar包冲突原理与解决办法

https://blog.csdn.net/noaman_wgs/article/details/81137893Maven中jar包冲突是开发过程中比较常见而又令人头疼的问题，我们需要知道 jar包冲突的原理，才能更好的去解决jar包冲突的问题。本文将从jar包冲突的原理和解决两个方面阐述Maven中jar包冲突的解决办法。一、Maven中jar包冲突产生原因MAVEN项目运行中如果报如下错误：Caused by:java.lang.NoSuchMethodErrorCaused by:

2021-05-25 15:06:51 239

转载事实表的分类：事务事实表，周期快照事实表，累计快照事实表

维度建模数仓领域中的事实表大致分以下三种：事务事实表，周期快照事实表，累计事实表。事务事实表与周期快照事实表、累积快照事实表虽然使用相同的一致性维度，但是它们在内容构成以及业务描述上还是有很大的区别。1.事务事实表事务事实表记录的事务层面的事实，保存的是最原子的数据，也称“原子事实表”。事务事实表中的数据在事务事件发生后产生，数据的粒度通常是每个事务记录一条记录。一旦事务被提交，事实表数据被插入，数据就不再进行更改，其更新方式为增量更新。由于事实表具有稀疏性质，因此只有当天数据才会进入当.

2021-05-23 12:47:07 2507

转载 hadoop YARN中container最小和最大内存概念

http://blog.sina.cn/dpool/blog/s/blog_af56c5560102wwfn.html

2021-02-04 22:35:42 789

转载 SparkSQL中的三种Join及其具体实现（broadcast join、shuffle hash join和sort merge join）

https://blog.csdn.net/wlk_328909605/article/details/829335521.小表对大表（broadcast join）将小表的数据分发到每个节点上，供大表使用。executor存储小表的全部数据，一定程度上牺牲了空间，换取shuffle操作大量的耗时，这在SparkSQL中称作Broadcast JoinBroadcast Join的条件有以下几个：*被广播的表需要小于 spark.sql.autoBroadcastJoinThresho.

2021-02-04 22:34:25 4771 1

转载 join算法分析

https://w.cnblogs.com/---wunian/p/9227586.htmljoin算法分析对于单条语句,explain看下key,加个索引多个条件,加复合索引where a = ? order by b 加(a,b)的复合索引上面都是比较基本的,这篇我们分析一些复杂的情况——join的算法如下两张表做join10w 100wtb R tb S r1 s1 r2 ..

2021-02-04 22:33:13 521

转载 Spark 大/小文件读取优化

https://blog.csdn.net/allwefantasy/article/details/106010295问题描述使用Spark写复杂SQL时，我们经常会遇到两个尴尬的情况：表里的单个文件都很大，而且因为record比较小，所以单个文件的record数量巨大。表里每个分区都有成百上千个小文件，单个文件可能只有几条记录对于第一种情况，会导致我们没办法充分利用我们已有的核，所以速度很慢。对于第二种情况，则会大量浪费调度时间。比如你有100万个文件，假设只有10

2021-02-04 22:30:46 4541

转载 MapReduce多进程和spark多线程

https://blog.csdn.net/u010916338/article/details/808517721,首先要区分分布式概念,分布式指的是将一个任务切分成多块分到多台机器运行.2,进程可以理解成该服务器分到的那一块任务(MapReduce每分到一个任务会重启一个进程,而spark的所有任务都只在一个进程中,每来一个任务启动一个线程.)3,线程可以理解成在进程的基础之上又细分的更小的任务4,在任务级别（特指Spark任务和MapReduce任务）上却采用了不同的并行机制：Hado.

2021-02-04 22:29:49 669

转载元数据管理工具——Atlas

https://blog.csdn.net/u012543380/article/details/110070153https://blog.csdn.net/oDaiLiDong/article/details/78052017第1节数据仓库元数据管理元数据(MetaData)狭义的解释是用来描述数据的数据。广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。如数据库中表的Schema信息，任务的血缘关系，用户和脚本/任务的权限映

2021-02-04 22:17:07 2939

转载 Flink的是如何实现exactly_once的？（CheckPoint详解）

https://blog.csdn.net/u010271601/article/details/104933021文章目录一、什么是CheckPoint? 二、为什么要开启CheckPoint？三、Flink 任务状态是什么？ Flink 整体框架图四、Flink Checkpoint 语义五、Exactly_Once 六、以FlinkKafkaProducer为例解析 1、CheckPoint 源码详解

2021-02-04 21:34:10 501

转载调研公司内部Spark集群能承受多少并发量

https://blog.csdn.net/qq_29726869/article/details/82757381任务描述测试公司内部Spark集群能承受多少并发量Spark集群分配参数节点数:5cpu:20核内存:40g硬盘:500g每台节点分配参数cpu:4核内存:8g硬盘:100g测试案例(通过spark集群自带WEBUI进行监控任务提交运行状态)1.编写测试程序1,无限循环通过Spark restful API 提交任务到...

2021-01-30 21:00:23 492

转载 Hadoop Yarn详解

https://www.cnblogs.com/lzc-1105m/p/9984122.html摘要：一、Yarn简介 Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构，我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构，我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn.

2021-01-30 20:57:37 623

转载脑补|yarn能并行运行任务总数～

https://cloud.tencent.com/developer/article/1534332最近知识星球没动静主要原因是知识星球他们在做系统升级，我也很无奈，由此给球友带来的不安，深感抱歉。前几天球友问了我一个问题：请问浪总，集群400GB内存，提交了10个任务后就不能继续提交任务了，资源还剩余300GB，CPU也很充足，完全满足新任务的资源，为啥就不能提交新任务了呢？？？各位同仁也可以先思考一下可能的原因及解决方案。估计很多人会说：很明显，新任务申请的资源，大于了可提供

2021-01-30 20:56:33 984

转载如何做数据治理？

https://2ly4hg.smartapps.cn/pages/article/article?articleId=308421762&authorId=416839&spm=smbd.content.share.0.1611981658907AqS7X7r&_trans_=010005_wxhy_shw&hostname=baiduboxapp&_swebfr=1数据治理不仅需要完善的保障机制，还需要理解具体的治理内容，比如我们的数据该怎么进行规范，元数据又

2021-01-30 20:54:46 1522

转载大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？

https://wjrsbu.smartapps.cn/zhihu/article?id=297769662&isShared=1&_swebfr=11. hadoop它是一个分布式计算+分布式文件系统，前者其实就是MapReduce，后者是HDFS。后者可以独立运行，前者可以选择性使用，也可以不使用2. hive通俗的说是一个数据仓库，仓库中的数据是被hdfs管理的数据文件，它支持类似sql语句的功能，你可以通过该语句完成分布式环境下的计算功能，hive会把语句转换成Ma...

2021-01-28 21:51:38 792

转载漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

https://bigdata.51cto.com/art/201705/539761.htm本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成：先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，***并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用，我们会以Hive场景下..

2021-01-28 21:51:13 367

转载交易事实表、周期快照事实表和累积快照事实表

https://blog.csdn.net/zlcd1988/article/details/40039921在数据仓库领域有一个概念叫Transaction fact table，中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种，另外两种分别是周期快照事实表和累积快照事实表。事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度，但是它们在描述业务事实方面是有着非常大的差异的。事务事实表记录的事务层面的事实，保...

2021-01-28 21:50:08 1558

空空如也

空空如也