一二三的小仓库-CSDN博客

原创【递归】汉诺塔递归问题

（1）把n-1个盘子由A 移到 B；（3）把n-1个盘子由B 移到 C；（2）把第n个盘子由 A移到 C；

2024-01-28 16:09:19 224 1

原创【Flink】Flink 的分流操作

所谓的分流就是将一条数据去拆分成多条数据流，就是基于一个DataStream ，来得到多个平等的DataStream 简单的代码实现使用侧输出流

2022-06-02 00:05:40 1837

原创【Hive】 case when 语句如果不写else 匹配不上的默认输为NULL

case when 语句如果不写else 匹配不上的默认输为NULL例1：不写else匹配上的结果-- case when 语法进行匹配select case 1 when 1 then "yes" end as test结果：例2：不写eles匹配不上的结果-- 匹配0值，如果匹配不上则默认输出的是NULLselect case 0 when 1 then "yes" end as test结果：...

2022-05-10 15:39:29 5067

原创取消IDEA&Pycharm打开软件自动进入项目

取消IDEA&Pycharm打开软件自动进入项目步骤1-打开IDEA，进入默认项目，选择选择菜单File>Settings进入设置页面。2-选择Appearance & Behavior>System Settings，进入系统设置页面。3-在栏目处，去掉默认的勾选Reopen last project on startup（在启动的时候打开上次的项目），去掉勾选之后，点击确认。4-关闭idea软件后，再次打开idea软件，就会进入欢迎界面，可以选择一个项目，也可

2022-05-10 14:22:53 5514

原创数据仓库的设计

数据仓库设计分层规划ODS(原始数据层): 存放未经过处理的原始数据，结构上与源系统保持一致，是数据仓库的数据准备区DWD(明细数据层)：基于维度建模理论进行构建，存放维度模型中的事实表，保存各业务过程最小粒度的操作记录DWS(汇总数据层)：基于上层的指标需求，以分析的主题对象作为建模驱动，构建公共统计粒度的汇总表ADS(数据应用层)：存放各项统计指标结果DIM（公共维度层）：基于维度建模理论进行构建，存放维度模型中的维度表，保存一致性维度信息数据仓库构建流程数据调研1）业务调研主

2022-05-02 09:49:31 4645

原创 hadoop文件系统查看gz压缩的文件内容

查看gz文件命令hadoop fs -cat /xxxx/xxx.gz | gzip -d 或hadoop fs -cat /xxxx/xxx.gz | zcat

2022-05-02 08:55:24 2622

原创数据仓库相关理论(数据建模相关概念&维度建模理论&事实表&维度表)

业务过程：可以概括为一个个不可拆分的行为事件，例如电商交易中的下单，取消订单，付款，退单等，都是业务过程。1-数仓建模方法论ER模型实体关系模型数据库规范化(三范式)：减少数据冗余，增强数据的一致性这种建模方法的出发点是整合数据，其目的是将整个企业的数据进行组合和合并。并进行规范处理，减少数据冗余性，保证数据的一致性。这种模型并不适合直接用于分析统计。维度模型维度模型将复杂的业务通过事实和维度两个概念进行呈现事实通常对应的是业务过程，而维度通常对应的是业务过程

2022-05-01 09:07:21 586

原创 Hive的NULL值求和与求平均

Hive的NULL值求和求平均sum(列1) : 这一列直接求和的时候遇到NULL值是会忽略不计的avg(列1) : 直接求平均值的时候遇到NULL值也是忽略不计，其他有值的正常计算列1+列2：如果两列里有其中一列为NULL的话，那么结果就是为null的count(列1)：如果列1里边有NULL的话是不进行计算的count(*) ：在进行统计计数的时候，所有的列都进行计算，包括NULL也算1-函数对NULL值的求和求平均首先来看这段代码with temp as (select null

2022-04-21 16:20:39 5156

原创 Flink自带的Source源算子以及自定义数据源Source

文章目录Flink的DataStream API(基础篇)Source源算子从集合中读取数据从文件中读取数据从Scoket中读取数据从Kafka中读取数据自定义SourceFlink的DataStream API(基础篇)Flink程序主要是分为Source -> Transform -> Sink本篇文章主要介绍的是Flink的源算子Source源算子POJO类的定义：POJO类定义为一个数据类型，Flink会把这样的类作为一个特殊的POJO数据类型，方便数据的解析和序列化PO

2022-04-14 16:49:35 1341

原创 Flink的WordCount (Java版本)

Flink使用流程步骤:创建Flink 流式处理的核心环境类对象.通过核心类对象, 添加数据源组件.在数据源组件中, 设置转换数据操作, 即: 实时计算操作.在转换后, 添加输出组件, 对统计结果进行输出.启动执行Flinkpackage com.dcit.wc;import org.apache.flink.api.common.typeinfo.Types;import org.apache.flink.api.java.tuple.Tuple2;import org.apac

2022-04-09 16:07:02 2602 2

原创 MapReduce之WordCount代码

整体的规划Mapper类继承Mapper 实现map方法Redcuer类继承Reducer类实现reduce方法Driver驱动类提交jobMap类package com.dcit.mr;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io

2022-04-04 11:38:27 2456

原创原子指标，派生指标，衍生指标概念

指标体系相关概念1. 原子指标原子指标指的是基于业务过程的度量值，顾名思义是不可以在进行拆分的指标核心功能：对指标的聚合逻辑进行了定义三要素：业务过程度量值聚合逻辑2. 派生指标派生指标是基于原子指标的关系为派生指标 = 原子指标 + 统计周期 + 业务+ 统计粒度举例具体解释：派生指标：最近一周更省份手机品类订单的总额原子指标：订单总额 (定义业务过程、度量值聚合逻辑)统计周期：最近一周(限定统计的范围是一个特殊的业务限定)业务限定：品类为手机(限定统计范围，相当于

2022-04-03 13:43:14 22590

原创 Hive的四个排序 by 总结

Hive的四个排序 by 总结Order by (全局排序) 全局排序全局只有一个ReducerSort by (分区内排序) 分区内排序Distrbute By(分区间排序) 分区间排序类似MR中Partition，进行分区，结合sort by使用。Cluseter 当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能

2022-03-29 16:54:42 2246

原创 Hive查看表大小(所占的磁盘空间大小)

查看该hive表的总容量大小单位为G[root@hadoop225 ~]$ hadoop fs -du /user/hive/warehouse/src.db/user/user_account|awk ' { SUM += $1 } END { print SUM/(1024*1024*1024) }'

2022-03-25 15:11:33 20457

原创 Hive中内部表和外部表之间的相互转换

区别：内部表--如果创建的表为内部表，在进行删除表的时候，元数据（mysql中的）和真实的数据（HDFS中存储的）都会被删除外部表-- 在Hive中删除表的时候，只会把自己当前Mysql中所存的元数据删除掉，而真实的数据依然存在HDFS中，不会影响；转换：----外部表转换成内部表alter table 外部表 set tblproperties ('EXTERNAL'='False');----内部表转换成外部表alter table 内部表 ...

2021-08-21 19:38:13 3930 1

iiiitttttt的博客