数仓之路
码龄7年
关注
提问 私信
  • 博客:64,891
    社区:1
    问答:39
    动态:252
    65,183
    总访问量
  • 30
    原创
  • 56,889
    排名
  • 2,167
    粉丝
  • 学习成就

个人简介:N年大数据开发经验, 数仓老六,欢迎交流

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-12-18
博客简介:

数仓老六

博客描述:
21天从入门到放弃数仓
查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    438
    当月
    3
个人成就
  • 获得158次点赞
  • 内容获得7次评论
  • 获得270次收藏
  • 代码片获得135次分享
创作历程
  • 7篇
    2024年
  • 12篇
    2023年
  • 5篇
    2022年
  • 9篇
    2020年
  • 1篇
    2019年
成就勋章
TA的专栏
  • 数据仓库理论
    6篇
  • 大数据SQL题
    2篇
  • Spring
  • Hive源码
    8篇
  • 大数据之路
    7篇
  • hive异常报错
    1篇
  • Java算法与数据结构
    1篇
兴趣领域 设置
  • 大数据
    hbasehadoophivestormsparkflumekafkahdfs大数据数据仓库
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据仓库模型管理

数据仓库模型管理是企业数据仓库建设中的关键环节,对于确保数据仓库高效、稳定运行具有重要意义。现代化的数据仓库管理策略应适应快速变化的技术和业务环境,通过创新的设计、自动化的流程和跨部门的协作,构建一个高效、可靠且安全的数据仓库,为企业的决策提供坚实的数据基础。在这个充满挑战和机遇的时代,数据仓库管理者需要不断学习新的理念和技术,正如《原则》一书中所述,通过不断探索和实践,我们可以找到更好的方法来管理和利用数据,推动企业和社会的进步。让我们拥抱变化,用数据的力量开启新的篇章。
原创
发布博客 2024.09.12 ·
554 阅读 ·
22 点赞 ·
0 评论 ·
15 收藏

大数据SQL面试题002-合并日期重叠的活动

本文详细解析了在大数据sql面试中常见的合并日期重叠活动的问题,并提供了相应的解决方案。通过使用窗口函数、条件表达式和日期函数,我们可以轻松地合并大厅中的重叠活动。这个问题不仅考察了对sql的熟练程度,还展示了如何使用sql处理复杂的数据分析任务。希望本文对大家在 Hive SQL 面试中遇到连续登录天数计算问题的解决有所帮助。如果你对 Hive SQL 或其他数据分析相关的问题感兴趣,欢迎关注微信公众号(数梦零零七),获取和交流更多有关数据仓库的知识和技巧。
原创
发布博客 2024.08.05 ·
452 阅读 ·
5 点赞 ·
0 评论 ·
12 收藏

数据仓库之核心模型与扩展模型分离

核心模型与扩展模型分离的策略有助于构建一个既稳定又灵活的数据仓库环境,支持企业不断变化的业务需求和数据分析目标。通过这些量化指标,数据仓库的管理者可以更客观地评估核心模型的稳定性和共享性,从而为数据仓库的优化和改进提供数据支持。核心模型的设计注重于反映企业的业务规则和数据一致性,确保数据仓库能够支持跨业务单元的分析和报告需求。在数据仓库的设计和实施过程中,核心模型与扩展模型分离是一种常见的策略,旨在提高数据仓库的灵活性、可维护性和扩展性。通过分析数据流向和使用情况,计算核心模型中数据被重用的比例。
原创
发布博客 2024.06.05 ·
730 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

数据仓库元数据管理

数据仓库元数据管理是数据仓库中至关重要的一环,它涉及到对数据仓库中的元数据进行收集、存储、组织、查询、维护和安全管理等方面的工作。本文将介绍数据仓库元数据管理的定义、分类、应用、价值、管理方案、具体实施和挑战,以帮助读者更好地理解和应用数据仓库元数据管理。数据仓库元数据管理的管理方案包括元数据收集和注册、元数据存储和组织、元数据查询和检索、元数据维护和更新、元数据安全和权限管理等方面。数据仓库元数据是描述数据仓库中数据的数据,包括数据的结构、定义、来源、质量、变化等信息。
原创
发布博客 2024.04.16 ·
769 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

数据治理:构建企业数据资产的基石

数据治理的定义有很多。国际数据管理协会(DAMA)给出的定义是:“数据治理是对数据资产管理行使权力和控制的活动集合。国际数据治理研究所(DGI)给出的定义是:“数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。在笔者看来,所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。
原创
发布博客 2024.03.10 ·
1042 阅读 ·
16 点赞 ·
0 评论 ·
15 收藏

大数据SQL面试题 001-连续登录天数

本文详细解析了在 Hive SQL 面试中常见的连续登录天数计算问题,并提供了相应的解决方案。​题目要求计算每个用户的连续登录天数。连续登录天数是指用户连续登录的天数,即从第一天登录开始,没有中断地登录的天数。这个问题涉及到对登录日志表的排序和条件判断,需要使用 Hive SQL 的窗口函数和条件表达式来解决。需要对 Hive SQL 的窗口函数和条件表达式有一定的了解,并能够将它们应用到实际的数据分析问题中。Hive SQL 的日期函数:在计算连续登录天数时,需要使用日期函数来进行日期的计算和比较。
原创
发布博客 2024.02.27 ·
473 阅读 ·
9 点赞 ·
0 评论 ·
4 收藏

数据建设赋能业务增长

数据仓库(Data Warehouse)是一个用于集成、存储和管理大量结构化和非结构化数据的系统。它是一个面向主题的、集成的、稳定的、可变的和可查询的数据集合,用于支持企业的决策制定和业务分析。数据仓库的设计和构建旨在满足以下目标:1. 集成数据:数据仓库从多个源系统中提取、转换和加载数据,将其集成到一个统一的数据模型中。这样可以消除数据孤岛,使得企业可以从一个统一的视角来分析和理解数据。2. 支持主题分析:数据仓库以主题为中心,将数据组织成一系列主题区域,如销售、客户、产品等。
原创
发布博客 2024.01.13 ·
945 阅读 ·
19 点赞 ·
0 评论 ·
28 收藏

数据仓库规范

数据仓库规范是指在设计、开发和维护数据仓库时应遵循的一系列规则和准则。这些规范旨在确保数据仓库的一致性、可靠性和可维护性,以支持有效的数据分析和决策制定。数据仓库规范通常包括以下方面:1. 数据模型规范:定义数据仓库的逻辑和物理数据模型,包括实体、属性、关系和约束等。这些规范有助于确保数据的一致性和完整性。2. 数据质量规范:定义数据质量的标准和度量指标,以确保数据的准确性、完整性和一致性。3. 数据加载规范:定义数据从源系统到数据仓库的加载过程,包括数据提取、转换和加载(ETL)的规则和流程。
原创
发布博客 2023.12.07 ·
563 阅读 ·
8 点赞 ·
0 评论 ·
8 收藏

hive函数源码之posexplode

UDTF(User-Defined Table-Generating Functions)是一进多出函数,如hive中的explode()、posexplode()函数。explode()函数可以将数组(array类型)的元素分隔成多行,或将映射(map类型)的元素分隔为多行和多列。工作中经常会用到这个函数,今天我们这次来分析下posexplode()函数源码。
原创
发布博客 2023.11.14 ·
210 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

数据仓库主题

建设数据仓库是一种方法论,它并不是一成不变的“定理”。因此,我们可能无法找到完全符合自己实际公司业务的“公式”。为了解决这个问题,我们需要学习这些方法论,并结合自己公司实际的业务场景来实现。只要能够有序地管理数据,同时高效地帮助数据分析并实现业务价值,就不必过分追求“行业标准”。
原创
发布博客 2023.10.13 ·
586 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive之decimal数据类型相乘结果为null

decimal类型使用乘法过程中尽量控制下精度。结果值部分为null值代码。
原创
发布博客 2023.09.11 ·
544 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Hive UDAF开发指南

UDAF(User-Defined Aggregate Function)是用户自定义聚合函数的缩写。在大数据处理框架中,如 Apache Hive、Apache Flink、Apache Spark 等,UDAF 允许用户扩展内置聚合函数,以实现特定的数据处理需求。它们通常用于对一组数据进行计算,然后返回一个汇总结果。UDAF 的主要特点:1. 可定制性:用户可以根据自己的需求编写自定义聚合函数,实现特定的数据处理逻辑。
原创
发布博客 2023.08.15 ·
1629 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Hive UDF开发指南

UDF(user defined functions)是用户定义函数,UDF操作作用于单个数据行,并且产生单个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。实现UDF需要继承特定类UDF或GenericUDF二选一。apache.hadoop.hive.ql.exec.UDF,处理并返回基本数据类型,int、string、boolean、double等;(也可以返回复杂数据类型)
原创
发布博客 2023.07.14 ·
1641 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Tez 简介

1.1 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。Tez UI界面包括应用详情、DAG有向无环图、Vertices信息、任务详情等信息。1.2 Tez 计算引擎结构更加类似于Spark,但却有所区别,二、Tez UI界面。
原创
发布博客 2023.06.08 ·
3997 阅读 ·
2 点赞 ·
0 评论 ·
11 收藏

hive隐式转换

hive允许的隐式转换
原创
发布博客 2023.05.08 ·
234 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive源码之explode函数

UDTF(User-Defined Table-Generating Functions)是一进多出函数,如hive中的explode()、posexplode()函数。explode()函数可以将数组(array类型)的元素分隔成多行,或将映射(map类型)的元素分隔为多行和多列。工作中经常会用到这个函数,今天我们这次来分析下explode()函数源码。不管是hive还是mapreduece,都是比较复杂的一整块,我们在学习的时候不妨“浅尝辄止”。
原创
发布博客 2023.04.10 ·
1361 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

腾讯数据分析面试题 求解

答:

1、这题重点在后面,汇总和分地区数据呈现在一张表中,需要用到窗口函数来处理
这里统计日期不太明确,是说哪个日期呢?我这里就写一个不限制日期的吧

select region
    ,subject
    ,pay_cnt
    ,total_cnt
    ,pay_cnt/total_cnt as pay_rate   -- 不同地区不同科目的续报率
    ,region_pay_cnt
    ,region_total_cnt
    ,region_pay_cnt/region_total_cnt as region_pay_rate -- 不同地区的续报率
    ,subject_pay_cnt
    ,subject_total_cnt
    ,subject_pay_cnt/subject_total_cnt as subject_pay_rate  -- 不同科目的续报率
from
(
    select region
        ,subject
        ,pay_cnt
        ,total_cnt
        ,sum(pay_cnt) over(partition by region order by subject rows between unbounded preceding and unbounded following) as region_pay_cnt  -- 窗口函数,计算该分区内所有数据
        ,sum(total_cnt) over(partition by region order by subject rows between unbounded preceding and unbounded following) as region_total_cnt
        ,sum(pay_cnt) over(partition by subject order by region rows between unbounded preceding and unbounded following) as subject_pay_cnt
        ,sum(total_cnt) over(partition by subject order by region rows between unbounded preceding and unbounded following) as subject_total_cnt
    from
    (
        select region
            ,subject
            ,sum(pay_cnt) as pay_cnt
            ,sum(total_cnt) as total_cnt
        from 
        ( 
            select teacher_name
                ,teacher_id
                ,region
                ,course_id
                ,subject
            from teacher
        ) t1
        left join
        ( -- 用户续报表计算续报数量到老师id
            select teacher_id
                ,sum(is_pay) as pay_cnt  -- 续报数
                ,count(is_pay) as total_cnt -- 总数
            from user 
            group by teacher_id
        )t2
        on t1.teacher_id = t2.teacher_id --通过老师id关联取地区和科目
        group by region
            ,subject
    ) t
) t


回答问题 2023.03.10

hive 字段类型变更级联

踩坑:数仓的分区表,由于需求需要进行字段类型变更、新增字段等。例如要把int类型的字段改为bigint,直接执行的以下语句:出现的问题:之后的分区数据可以正常的显示,历史数据查出来的数据为0或者null,无论insert overwrite重新导数据、把有问题的分区数据删掉都不能正常显示。
原创
发布博客 2023.03.06 ·
698 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏
加载更多