- 博客(8)
- 资源 (43)
- 收藏
- 关注
原创 Hive存储优化策略
1 避免小文件生成Hive的存储本质还是HDFS,HDFS是不利于小文件存储的,因为每个小文件会产生一条元数据信息,并且不利用MapReduce的处理,MapReduce中每个小文件会启动一个MapTask计算处理,导致资源的浪费,所以在使用Hive进行处理分析时,要尽量避免小文件的生成。那么在使用Hive时,如何能避免小文件的生成呢?当我们使用多个Reduce进行聚合计算时,我们并不清楚每个Reduce最终会生成的结果的数据大小,无法控制用几个Reduce来处理。Hive中为我们提供了一个特殊的机
2021-05-30 20:31:21 475 6
原创 HQL之常用的行列转换应用总结
行列转换是数据开发者的基本技能,也是面试重点,在数据开发中处处可见,本文对常见的几种情况进行了总结,包括了多行转多列,多行转单列,多列转多行,单列转多行的几种情况,并给出了解决思路和方法,读者可根据本文给出的思路灵活应对业务中遇到的问题。
2021-05-30 14:59:36 1297 1
原创 Hive多字节分隔符解决方案
1 应用场景1.1 Hive中的分隔符Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节分隔符’ 来指定文件中的分割符,确保正确将表中的每一列与文件中的每一列实现一一对应的关系。1.2 特殊数据在实际工作中,我们遇到的数据往往不是非常规范化的数据,例如我们会遇到以下的两种情况情况一:每一.
2021-05-29 18:09:57 4840 3
原创 HBase数据块NotServingRegionException问题排查与解决
0 问题ERROR: org.apache.hadoop.hbase.NotServingRegionException: Region phm_default_lightunit,,1606205408615.397792fb6a31a2a183c3031d173c61d2. is not online on bd--4.jx.com,16020,1620637191420 at org.apache.hadoop.hbase.regionserver.HRegionServer.getRegio
2021-05-11 14:08:41 8480
原创 System times on machines may be out of sync. Check system time and time zones问题解决
错误如下:Diagnostic Messages for this Task:Container launch failed for container_e07_1614842970834_0146_02_000005 : org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.This token is expired. current time is 16206288052
2021-05-10 15:01:18 1008
原创 窗口函数之ntile()函数讲解
ntileNTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值。将一个有序的数据集划分为多个桶(bucket),并为每行分配一个适当的桶数(切片值,第几个切片,第几个分区等概念)。它可用于将数据划分为相等的小切片,为每一行分配该小切片的数字序号。NTILE不支持ROWS BETWEEN,比如NTILE(2) OVER(PARTITION BY dept_no ORDER BY salary ROWS BETWEEN 3 PRECEDING - AND CURRENT ROW)。如.
2021-05-09 21:40:59 20351
原创 窗口函数之cume_dist 函数讲解
cume_dist 如果按升序排列,则统计:小于等于当前值的行数/总行数(number of rows ≤ current row)/(total number of rows)。如果是降序排列,则统计:大于等于当前值的行数/总行数。示例:1. 统计小于等于当前工资的人数占总人数的比例。SELECT name, dept_no, salary, cume_dist() OVER (ORDER BY salary) as cume_distF.
2021-05-09 21:32:25 6812 1
原创 数据仓库模型设计及实施方法
1 数仓的分层(1)如何分层?ODS层:原始数据层,存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理DWD层:数据明细层:结构和粒度保持原始表一致。主要作用是对ODS层数据进行清洗(去除空值NULL,脏数据,超过极限范围的数据如9999),当然也包括对原始解析处理,如串值的展开,json的解析等DWS层:数据汇总层或数据服务层:依赖于DWD层数据,按天粒度进行汇总DWT层:数据主题层:以DWS层为基础,按主题进行汇总。ADS层:为各种展示及统计报表提供数据。(2)为什么
2021-05-09 21:15:39 1621
人工智能(深度学习)相关视频及资料
2018-06-26
STM32开发工具及相关资料包
2018-06-26
kafka细心原理与实战
2018-06-25
三套大数据实战项目集合(视频讲解+源代码+相关文档+相关软件资料)
2018-06-22
大厂算法面试题库中高频出现的30道典型题.pdf
2020-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人