resin_404-CSDN博客

原创 shell+sqoop 实现数据抽取的面向对象设计

sqoop和shell组成数据抽取的模块化设计，灵活配置，使用文件配置管理元数据。减少重复性劳动，提高工作效率

2021-06-21 19:30:37 700

原创大数据开发工程师（偏数仓开发岗中/高级）面试经验分享（2021）

2021年大数据开发工程师面试经验总结分享，以及知识点汇总整理

2021-06-17 15:03:18 1316

原创 xxl-job调度执行流程及源码解析

XXL-JOB源码分析，调度中心执行流程以及源码解析；任务依赖解析，任务执行的原理阐述，使用的数据结构分析

2020-12-22 15:45:58 1656

原创 Impala+kudu数仓经验及sql调优过程分享

基于Impala+kudu的数据仓库，以及Impala执行sql的优化。列举说明数据仓库过程中遇到的问题，sql调优过程，sql执行计划解析，explain、summary、profile解析语句的过程

2020-11-22 19:02:11 2016 4

原创《大数据之路-阿里巴巴大数据实践》拆书稿以及数仓架构的思考

通过学习《大数据之路-阿里巴巴大数据实践》学习了数据采集，数据同步，数据处理，计算管理，模型管理，数据生命周期等数据仓库的各个方面。将书中的问题结合自己实际的工作经验，落地一部分经验总结

2020-06-29 22:59:05 1054 3

Hive作为数据仓库常用工具之一，在数据量级越来越大的时候，存储问题会暴露出来。那么在之前大部分为了省事方便都会以TextFile*作为存储类型，此类型比较占存储，并且查询效率并不是很高。为了节省集群的存储空间，研究了各种存储类型，网上各类帖子已经把这几类的优缺点和使用场景说的非常明确。我在这稍微提及一下，主要想分享我在使用sqoop抽取数据时进行文件类型转换（parquet）遇到的坑，共享出来希望遇到此问题的朋友借鉴，减少不必要时间消耗。*一、概述一下各类文件类型的优缺点1.TextFile行存储，

2020-06-09 15:02:56 5091

原创自定义UDAF函数开发详解

hive自定义UDAF函数开发详解UDAF 函数分为如下两部分：一、负责检查数据类型（Resolver）二、负责数据执行处理（Evaluator）

2019-12-11 10:32:10 1397

原创数据仓库工程师面试经验（2019）

数据仓库面试经验分享（2019年）

2019-09-12 16:14:25 4559 5

原创数据仓库结构设计与实施-拆书稿（维度建模理论）

拆书稿-数据仓库结构设计与实施本篇文章内容目录第二章：数据仓库总体结构1 金字塔结构2 元数据与模型3 映像4 数据仓库三要素5 多维总计方阵6 方阵和数据集市的区别第五章数据仓库设计与应用开发数据仓库层次结构数据仓库概念设计数据仓库逻辑设计数据仓库物理设计...

2019-08-26 11:19:21 556

原创 Mysql安装教程和sql练习题（windows环境，内附Mysql安装包和客户端安装包）

mysql的windows环境安装教程，附mysql安装包和客户端安装包。以及sql语句测试题和建表语句等数据准备

2019-08-21 23:11:59 1068

原创 Kimball维度建模基本理论

维度建模基础理论，以及优越之处和应用场景。阐明了何为事实和维，并且解释了相关细分类别和应用场景。

2019-08-15 15:21:07 7555

原创 Shell编程、linux命令工作常用，提高工作效率系列，快快收藏

shell编程，linux命令工作时常用语句，编写shell脚本必不可少，收藏便于查询，可提高工作效率

2019-08-12 15:23:00 330

原创 Shell编程日常工作积累，收藏下来，工作效率会大幅提升

shell编程命令清单，日常工作积累，收藏了提升工作效率

2019-08-12 11:05:36 273 3

原创最实用的hive优化参数配置，session级别配置灵活性高

前言在Hive优化方面，要做到性能最优，那就是得定制优化，针对不同的sql脚本设置不同的参数，配置不同的map和reduce数。保证局部性能最优，结果才会是效率最高。那么在定制优化方面使用session级别的配置就是对症下药。所有的设置的参数只在一次Hive的cli命令起作用，关闭窗口或者退出命令行后整个配置参数全部失效，不会对其他脚本的运行环境造成影响。配置清单：1 创建session...

2019-07-31 13:07:58 1941

原创搭建Hive数据仓库爬过的坑-数据仓库设计要点

开篇基于大数据的时代背景，分布式计算框架已经是无可替代的计算工具。那么数据仓库的运行环境就不只是拘泥于关系型数据库了，在数据量比较大的前提下，分布式计算将会比关系型数据库更胜一筹。那么数据仓库环境从关系型数据到分布式计算框架的迁移过程中要考虑哪些问题或者需要解决哪些问题，下面我们具体详细讲解。数据仓库环境： Hadoop + HDFS + Hive数据仓库整体架构图问题清单（本文会依次...

2019-07-29 15:13:11 1303

原创《Building the Data Warehouse》（数据仓库第四版）拆书稿-关系模型（3NF范式建模）重要知识点

拆书稿：《Building the Data Warehouse》（数据仓库第四版）最近复盘数据仓库的相关技术，在网上搜了好多关于数仓的帖子，看完之后就是感觉有肉无血，串不起来。因为好多都是介绍数仓的两种建模基本理论，但是付诸于实践的时候感觉还是无从下手。所以才决心整理一下自己这几年的数仓经验。分享给大家，刚开始写帖子，有需要改进的地方大家可以留言给我，或者有什么需要反馈的问题都可以给我留言...

2019-07-27 18:59:31 4470 1