2021年05月_莫叫石榴姐

11月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hive存储优化策略

1 避免小文件生成Hive的存储本质还是HDFS，HDFS是不利于小文件存储的，因为每个小文件会产生一条元数据信息，并且不利用MapReduce的处理，MapReduce中每个小文件会启动一个MapTask计算处理，导致资源的浪费，所以在使用Hive进行处理分析时，要尽量避免小文件的生成。那么在使用Hive时，如何能避免小文件的生成呢？当我们使用多个Reduce进行聚合计算时，我们并不清楚每个Reduce最终会生成的结果的数据大小，无法控制用几个Reduce来处理。Hive中为我们提供了一个特殊的机

2021-05-30 20:31:21 475 6

原创 HQL之常用的行列转换应用总结

行列转换是数据开发者的基本技能，也是面试重点，在数据开发中处处可见，本文对常见的几种情况进行了总结，包括了多行转多列，多行转单列，多列转多行，单列转多行的几种情况，并给出了解决思路和方法，读者可根据本文给出的思路灵活应对业务中遇到的问题。

2021-05-30 14:59:36 1297 1

原创 Hive多字节分隔符解决方案

1 应用场景1.1 Hive中的分隔符Hive中默认使用单字节分隔符来加载文本数据，例如逗号、制表符、空格等等，默认的分隔符为\001。根据不同文件的不同分隔符，我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节分隔符’ 来指定文件中的分割符，确保正确将表中的每一列与文件中的每一列实现一一对应的关系。1.2 特殊数据在实际工作中，我们遇到的数据往往不是非常规范化的数据，例如我们会遇到以下的两种情况情况一：每一.

2021-05-29 18:09:57 4840 3

原创 HBase数据块NotServingRegionException问题排查与解决

0 问题ERROR: org.apache.hadoop.hbase.NotServingRegionException: Region phm_default_lightunit,,1606205408615.397792fb6a31a2a183c3031d173c61d2. is not online on bd--4.jx.com,16020,1620637191420 at org.apache.hadoop.hbase.regionserver.HRegionServer.getRegio

2021-05-11 14:08:41 8480

原创 System times on machines may be out of sync. Check system time and time zones问题解决

错误如下：Diagnostic Messages for this Task:Container launch failed for container_e07_1614842970834_0146_02_000005 : org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.This token is expired. current time is 16206288052

2021-05-10 15:01:18 1008

原创窗口函数之ntile()函数讲解

ntileNTILE(n)，用于将分组数据按照顺序切分成n片，返回当前切片值。将一个有序的数据集划分为多个桶(bucket)，并为每行分配一个适当的桶数（切片值，第几个切片，第几个分区等概念）。它可用于将数据划分为相等的小切片，为每一行分配该小切片的数字序号。NTILE不支持ROWS BETWEEN，比如NTILE(2) OVER(PARTITION BY dept_no ORDER BY salary ROWS BETWEEN 3 PRECEDING - AND CURRENT ROW)。如.

2021-05-09 21:40:59 20351

原创窗口函数之cume_dist 函数讲解

cume_dist 如果按升序排列，则统计：小于等于当前值的行数/总行数(number of rows ≤ current row)/(total number of rows）。如果是降序排列，则统计：大于等于当前值的行数/总行数。示例：1. 统计小于等于当前工资的人数占总人数的比例。SELECT name, dept_no, salary, cume_dist() OVER (ORDER BY salary) as cume_distF.

2021-05-09 21:32:25 6812 1

原创数据仓库模型设计及实施方法

1 数仓的分层（1）如何分层？ODS层：原始数据层，存放原始数据，直接加载原始日志，数据，数据保持原貌不做处理DWD层：数据明细层：结构和粒度保持原始表一致。主要作用是对ODS层数据进行清洗（去除空值NULL，脏数据，超过极限范围的数据如9999），当然也包括对原始解析处理，如串值的展开，json的解析等DWS层：数据汇总层或数据服务层：依赖于DWD层数据，按天粒度进行汇总DWT层：数据主题层：以DWS层为基础，按主题进行汇总。ADS层：为各种展示及统计报表提供数据。（2）为什么

2021-05-09 21:15:39 1621

身份6位速查表.zip

前6位于对应省份地区地址的关系速查表，做数据的同学可以借用一下。

2020-04-29

Drools规则引擎介绍.ppt

drools规则引擎，了解规则匹配，专家系统的可以学习一下，java的同学也可以学习一下，各大厂也在用哦

2020-04-29

大数据架构题目.pdf

大数据架构面试题包含了数据治理、数据仓库、数据架构、数据分析题目，是面试不可多得的资料，需要的赶快入手。

2020-04-08

hive建表操作案例.txt

hive分桶，分区操作案例实战。学习的好资料。hive分桶，分区操作案例实战。学习的好资料。hive分桶，分区操作案例实战。学习的好资料。

2019-12-25

启动zk的脚本.sh

集群启动zk的脚本，只需要改集群参数就可以了集群启动zk的脚本，只需要改集群参数就可以了集群启动zk的脚本，只需要改集群参数就可以了

2019-12-25

FingerLocFun.m

matlab室内定位算法程序，可运行，稍微改改参数就可以了。matlab室内定位算法程序，可运行，稍微改改参数就可以了。

2019-12-25

尚硅谷大数据之Oozie.pdf

dashuju 大数据oozie尚硅谷主讲，内容总结详细

2019-08-21

尚硅谷python-人工智能课程(1).pptx

尚硅谷python，人工智能课件精讲，内容丰富，学到很多

2019-08-21

数据仓库架构师笔试题.docx

数据仓库架构师面试题，里面包含了各家的面试题，难度比较大，欢迎下载

2019-08-13

Azkaban实战通过5个不同场景介绍原理.docx

Azkaban实战通过5个不同场景介绍原理，实战级别，非常好用的资源。

2019-05-22

企业IT架构转型之道阿里巴巴中台战略思想与架构实战【高清+完整目录】(1).pdf

企业IT架构转型之道阿里巴巴中台战略思想与架构实战【高清+完整目录】很多人想要的资料哦

2019-05-22

scala从入门到进阶

1、本文档主要讲述了scala从基础到进阶的内容。2、内容全面，例程到位，适合初学者学习。

2018-07-19

java9新特性视频讲解（源码+视频+工具+资料）

java9新特性视频讲解（源码+视频+工具+资料），尚硅谷。

2018-06-27

人工智能（深度学习）相关视频及资料

1、本下载地址包括了：人工智能的相关学习资料，如python机器学习、机器学习实战，金融大数据分析、深度学习等相关资料。2、视频内容包含了，人工智能数学类基础学习、深度神经网络算法之Python基础与数据分析、深度神经网络算法之算法与编程及深度学习。3、该资料是学习人工智能极好的资料，网上有卖的，我分享出来与大家共享，觉得好久点个赞吧，哈哈。

2018-06-26