大数据学习爱好者
想学好技术的年轻人
展开
-
大厂真实面试题(二)
已知有购买记录表t_order,包含自增id:id,用户ID:user_id,商品ID:goods_id,订单时间:order_time,商品类别:goods_type;购买记录表t_order期望结果。原创 2024-06-06 11:11:43 · 197 阅读 · 0 评论 -
大厂真实面试题(一)
已知有表t_cost_detail包含id和money两列,id为自增,请累加计算money值,并求出累加值与1000差值最小的记录。原创 2024-06-06 09:45:39 · 1963 阅读 · 0 评论 -
Streampark 入门到生产实践
实时即未来,在实时处理流域和是一个伟大的进步,尤其是被普遍认为是下一代大数据流计算引擎, 我们在使用FlinkSpark时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力诞生了今天的框架 ——StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发流处理作业, 可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark。原创 2024-03-18 11:44:27 · 511 阅读 · 0 评论 -
sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -> 3
【代码】sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -> 3。原创 2023-10-31 17:22:13 · 486 阅读 · 0 评论 -
辉哥带你学hive第十讲--实战需求(一) 数据准备
hive 中级sql 练习,并且配套sql讲解视频原创 2023-07-08 23:16:20 · 181 阅读 · 0 评论 -
辉哥带你学hive第四讲--实战需求(一)
hive实战一原创 2023-05-15 23:48:24 · 386 阅读 · 2 评论 -
辉哥带你学hive第一讲 hive基本介绍以及环境搭建
hive基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表。Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序。其中Hive中每张表的数据存储在HDFS,Hive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez)并且执行程序运行在yarn上。原创 2023-05-11 22:00:56 · 648 阅读 · 0 评论 -
辉哥带你学hive第三讲
Hive的函数原创 2023-01-01 18:08:30 · 239 阅读 · 0 评论 -
辉哥带你学hive第二讲
hive 基本概念原创 2022-12-26 16:24:57 · 326 阅读 · 0 评论 -
SeaTunnel 入门到精通(一)
seatunnel 教程一原创 2022-08-21 22:32:00 · 2231 阅读 · 0 评论 -
快学scala 第一章 基础知识以及课后题全解
scala 开发原创 2019-08-13 10:53:58 · 177 阅读 · 0 评论 -
StarkRocks 第二讲 基本操作(1)
starRocks 基本操作原创 2022-06-19 17:50:10 · 325 阅读 · 0 评论 -
StarkRocks 第一讲介绍
starRocks 介绍原创 2022-06-18 23:18:33 · 430 阅读 · 0 评论 -
第六讲:数据仓库搭建(四)
数据仓库4,dwt原创 2022-06-13 16:10:42 · 106 阅读 · 0 评论 -
第五讲:数据仓库搭建(三)
dws数据仓库表构建原创 2022-06-09 11:29:04 · 204 阅读 · 0 评论 -
离线数据仓库第四讲
数据仓库搭建原创 2022-06-06 23:49:15 · 109 阅读 · 0 评论 -
离线数据仓库第三讲
dim维度表建立原创 2022-06-06 09:41:20 · 368 阅读 · 0 评论 -
离线数据仓库第二讲
数据仓库建模1.ODS层建模方法2.DIM层和DWD层1.ODS层建模方法1.HDFS用户行为数据创建一个表日志表,里面只需要一个字段就行了。这个表然后就是按天分区。每天日志采集2.HDFS业务数据1.同步那些表就建立那些表2.表结构,需要哪些同步那些表的字段。按天进行分区。2.DIM层和DWD层DIM层DWD层需构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。 DIM 对应的是维度表,DWD对应的是事实表维度建模一般按照以下四个步骤:选择业务过程→声明粒度→确认维度→确认事原创 2022-11-21 23:24:08 · 1505 阅读 · 0 评论 -
离线数据仓库第一讲
数据仓库的基本概念1.为什么要分层1.1 数据仓库分层和每层的概念2.数据集市和数据仓库区别3.数据仓库命名规范3.1 表的命名3.2 脚本的命名3.3 表字段类型4.数仓理论4.1范式概念4.2 范式定义4.3维度建模4.3.1维度表和事实表4.3.2 事实表4.3.3 维度模型分类1.为什么要分层1.把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题。2.减少重复开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次3.计算结果的复用性。隔离原创 2021-12-20 16:24:27 · 902 阅读 · 0 评论