resin_404
码龄7年
  • 22,271
    被访问
  • 16
    原创
  • 838,271
    排名
  • 34
    粉丝
关注
提问 私信

个人简介:从事互联网金融里的数据业务服务开发

  • 加入CSDN时间: 2015-07-14
博客简介:

resin_404的博客

查看详细资料
  • 1
    领奖
    总分 49 当月 4
个人成就
  • 获得33次点赞
  • 内容获得14次评论
  • 获得207次收藏
创作历程
  • 2篇
    2021年
  • 4篇
    2020年
  • 10篇
    2019年
成就勋章
TA的专栏
  • 任务调度
    1篇
  • 实时数仓
    1篇
  • 数据仓库理论
    4篇
  • hive数据仓库
    6篇
  • linux积累
    3篇
  • Mysql
    1篇
兴趣领域 设置
  • 大数据
    hadoophiveetl
  • 数据库管理
    数据仓库
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

shell+sqoop 实现数据抽取的面向对象设计

sqoop和shell组成数据抽取的模块化设计,灵活配置,使用文件配置管理元数据。减少重复性劳动,提高工作效率
原创
发布博客 2021.06.21 ·
80 阅读 ·
2 点赞 ·
0 评论

大数据开发工程师(偏数仓开发岗中/高级)面试经验分享(2021)

2021年大数据开发工程师面试经验总结分享,以及知识点汇总整理
原创
发布博客 2021.06.17 ·
379 阅读 ·
1 点赞 ·
0 评论

xxl-job调度执行流程及源码解析

XXL-JOB源码分析,调度中心执行流程以及源码解析;任务依赖解析,任务执行的原理阐述,使用的数据结构分析
原创
发布博客 2020.12.22 ·
715 阅读 ·
1 点赞 ·
0 评论

Impala+kudu数仓经验及sql调优过程分享

基于Impala+kudu的数据仓库,以及Impala执行sql的优化。列举说明数据仓库过程中遇到的问题,sql调优过程,sql执行计划解析,explain、summary、profile解析语句的过程
原创
发布博客 2020.11.22 ·
916 阅读 ·
2 点赞 ·
4 评论

阿里大数据之路.xmind

发布资源 2020.07.10 ·
xmind

《大数据之路-阿里巴巴大数据实践》拆书稿以及数仓架构的思考

通过学习《大数据之路-阿里巴巴大数据实践》学习了数据采集,数据同步,数据处理,计算管理,模型管理,数据生命周期等数据仓库的各个方面。将书中的问题结合自己实际的工作经验,落地一部分经验总结
原创
发布博客 2020.06.29 ·
450 阅读 ·
1 点赞 ·
1 评论

Hive底层文件存储类型parquet

Hive作为数据仓库常用工具之一,在数据量级越来越大的时候,存储问题会暴露出来。那么在之前大部分为了省事方便都会以TextFile*作为存储类型,此类型比较占存储,并且查询效率并不是很高。为了节省集群的存储空间,研究了各种存储类型,网上各类帖子已经把这几类的优缺点和使用场景说的非常明确。我在这稍微提及一下,主要想分享我在使用sqoop抽取数据时进行文件类型转换(parquet)遇到的坑,共享出来希望遇到此问题的朋友借鉴,减少不必要时间消耗。*一、概述一下各类文件类型的优缺点1.TextFile行存储,
原创
发布博客 2020.06.09 ·
1576 阅读 ·
1 点赞 ·
0 评论

自定义UDAF函数开发详解

hive自定义UDAF函数开发详解UDAF 函数分为如下两部分:一、负责检查数据类型(Resolver)二、负责数据执行处理(Evaluator)
原创
发布博客 2019.12.11 ·
819 阅读 ·
0 点赞 ·
0 评论

数据仓库工程师面试经验(2019)

数据仓库面试经验分享(2019年)
原创
发布博客 2019.09.12 ·
4008 阅读 ·
12 点赞 ·
5 评论

数据仓库结构设计与实施-拆书稿(维度建模理论)

拆书稿-数据仓库结构设计与实施本篇文章内容目录第二章:数据仓库总体结构1 金字塔结构2 元数据与模型3 映像4 数据仓库三要素5 多维总计方阵6 方阵和数据集市的区别第五章 数据仓库设计与应用开发数据仓库层次结构数据仓库概念设计数据仓库逻辑设计数据仓库物理设计...
原创
发布博客 2019.08.26 ·
369 阅读 ·
0 点赞 ·
0 评论

Mysql安装教程和sql练习题(windows环境,内附Mysql安装包和客户端安装包)

mysql的windows环境安装教程,附mysql安装包和客户端安装包。以及sql语句测试题和建表语句等数据准备
原创
发布博客 2019.08.21 ·
798 阅读 ·
2 点赞 ·
0 评论

Kimball维度建模基本理论

维度建模基础理论,以及优越之处和应用场景。阐明了何为事实和维,并且解释了相关细分类别和应用场景。
原创
发布博客 2019.08.15 ·
5928 阅读 ·
1 点赞 ·
0 评论

Shell编程、linux命令工作常用,提高工作效率系列,快快收藏

shell编程,linux命令工作时常用语句,编写shell脚本必不可少,收藏便于查询,可提高工作效率
原创
发布博客 2019.08.12 ·
182 阅读 ·
2 点赞 ·
0 评论

Shell编程日常工作积累,收藏下来,工作效率会大幅提升

shell编程命令清单,日常工作积累,收藏了提升工作效率
原创
发布博客 2019.08.12 ·
142 阅读 ·
2 点赞 ·
3 评论

最实用的hive优化参数配置,session级别配置灵活性高

前言在Hive优化方面,要做到性能最优,那就是得定制优化,针对不同的sql脚本设置不同的参数,配置不同的map和reduce数。保证局部性能最优,结果才会是效率最高。那么在定制优化方面使用session级别的配置就是对症下药。所有的设置的参数只在一次Hive的cli命令起作用,关闭窗口或者退出命令行后整个配置参数全部失效,不会对其他脚本的运行环境造成影响。配置清单:1 创建session...
原创
发布博客 2019.07.31 ·
1065 阅读 ·
1 点赞 ·
0 评论

搭建Hive数据仓库爬过的坑-数据仓库设计要点

开篇基于大数据的时代背景,分布式计算框架已经是无可替代的计算工具。那么数据仓库的运行环境就不只是拘泥于关系型数据库了,在数据量比较大的前提下,分布式计算将会比关系型数据库更胜一筹。那么数据仓库环境从关系型数据到分布式计算框架的迁移过程中要考虑哪些问题或者需要解决哪些问题,下面我们具体详细讲解。数据仓库环境: Hadoop + HDFS + Hive数据仓库整体架构图问题清单(本文会依次...
原创
发布博客 2019.07.29 ·
898 阅读 ·
1 点赞 ·
0 评论

《Building the Data Warehouse》(数据仓库 第四版)拆书稿-关系模型(3NF范式建模)重要知识点

拆书稿:《Building the Data Warehouse》(数据仓库 第四版)最近复盘数据仓库的相关技术,在网上搜了好多关于数仓的帖子,看完之后就是感觉有肉无血,串不起来。因为好多都是介绍数仓的两种建模基本理论,但是付诸于实践的时候感觉还是无从下手。所以才决心整理一下自己这几年的数仓经验。分享给大家,刚开始写帖子,有需要改进的地方大家可以留言给我,或者有什么需要反馈的问题都可以给我留言...
原创
发布博客 2019.07.27 ·
2784 阅读 ·
4 点赞 ·
1 评论

PyV8各个环境的安装包-python3

发布资源 2018.05.11 ·
zip

excel文件的上传和下载源码

发布资源 2015.07.24 ·
docx
加载更多