haungtan07-CSDN博客

原创 Trino -Iceberg 实践

此时俩类查询的 bloom filter 产生的效果是不一样的，因为热门的 token 会存在大部分数据文件里，冷门的 token 大概率只存在于少部分数据文件内。对于热门 token，bloom filter 的加速效果不佳，但对于冷门 token，bloom filter 帮助其快速过滤掉了很多数据文件，快速找到有冷门 token 的数据文件，加速效果极佳。将相似数据聚集在一起的好处是更少的文件可能具有与查询相关的数据，这意味着 min/max 的好处会更大（扫描的文件越少，速度越快）。

2024-04-24 15:21:53 452

原创 hive日期使用技巧

hive日期使用技巧

2022-10-25 10:06:22 2861 1

原创数仓历史拉链表

关键字：数据仓库、极限存储、历史拉链表、更新使用这种方式即可以记录历史，而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。本文中假设：数据仓库中订单历史表的刷新频率为一天，当天更新前一天的增量数据；如果一个订单在一天内有多次状态变化，则只会记录最后一个状态的历史；订单状态包括三个：创建、支付、完成；创建时间和修改时间只取到天，如果源订单表中没有状态修改时间，那么抽取增量就比较麻烦，需要有个机制来确保能抽取到每天的增量数据；本文中的表和SQL都使用Hive的HQL语

2021-05-27 10:19:59 530

原创 flink1.11 实时数仓探索

线上使用的flink版本是1.8的版本，对flink-sql支持有限。2020年flink出来了1.11的稳定版本，一直没有机会使用。近期使用1.11版本进行了尝试。目前实时数仓架构我们目前ods-dw层是合并的，ods层格式化打宽之后，dwd层使用了异步io的方式进行了补维操作。dwd层数据落地是使用streamflieink的方式重写partition函数5分钟落地到hdfs.我们的dw层分区表的分区是通过调度提前一天加载好的，这样落地数据文件就可以直接查询。这样的问题点：

2021-05-27 09:52:43 416

原创 2020年终总结

一、前言时光荏苒，转眼间已辞去 20又迎来 21，每每到了年底，心中总是不禁一阵悔恨，看着年初立下的种种 flag（学习、跑步、健身…），不禁感叹又是一年蹉跎岁月！想起一个笑话：“2020 年我的目标是：完成 2019 年那些本该在 2018 年完成的我在 2017年就信誓旦旦要完成 2016 年制定的目标”。看完后一阵忍俊不禁，但回头看看之前立下的种种 flag，又多了一些苦涩的感觉。年初时摩拳擦掌直感：“会当凌绝顶，一览众山小”，年末时感叹：“少壮不努力，老大徒伤悲”！一年的时间说长不长，

2021-02-08 10:29:50 206 2

原创数据质量监控规划

数据质量监控规划一、项目背景数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期。数据质量必须是可测量的，把测量的结果转化为可以理解的和可重复的数字，使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动，运用质量管理技术度量、评估、改进和保证数据的恰当使用。二、数据质量产生的原因数据质量问题产生的原因有三大类：一是源数据问题。二是数据ETL处理过程中产生的问题。三是业务需求发生了改变或者没有...

2021-02-08 10:03:04 813

原创数据中台之我见

2019是数据中台的元年，但是数据中台为啥突然火了？数据中台被誉为大数据的下一站，由阿里兴起，核心思想是数据共享，并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上，关于数据中台的话题也获得了众多参会者的热烈关注。数据中台的概念是最早由阿里巴巴首次提出，是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题...

2020-04-02 17:14:23 433

原创深入理解kafka-总结

背景介绍Kafka简介Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，并保证即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区，及分布式消息消费，同时保证每个partition内的消息顺序传输同...

2020-03-20 14:32:23 286

原创特征值处理-机器学习

综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分，即“数据清洗=>特征，标注数据生成=>模型学习=>模型应用”中的前两个步骤。灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据，如文本、图像或者应用数据中清洗出特征数据和标注数据。对清洗出的特征和标注数据进行处理，例如样本采样，样本调权，异常点去除，特征归一化处...

2020-03-20 14:16:59 3586

原创 hive介绍

1. Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分...

2020-03-20 14:13:27 263

原创 flume 监控发送数和成功数

使用Flume实时收集日志的过程中，尽管有事务机制保证数据不丢失，但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常，比如，SouceàChannel传输了多少消息，ChannelàSink又传输了多少，两处的消息量是否偏差过大等等。Flume为我们提供了Monitor的机制：http://flume.apache.org/FlumeUserGuide.html#m...

2020-03-20 11:36:49 715

原创实时数仓中flink异步io补维操作

在实时数据仓库中，事实表可以通过flink实时清洗到操作数据层ods层。操作基础数据到dw明细数据层需要对一些维度进行补充，形成一个宽表。本文通过异步io的方式对mysql数据库的维度信息进行抽取，同时使用缓存对维度数据进行缓存。线上使用发现这种方式非常稳定。需要注意的是要注意对数据库的连接数需要设置，避免连接数被用尽的情况。package com.mgtv.data.dimensio...

2020-03-20 11:31:15 596

转载数据模型

关于数据仓库的概念，这里不再累赘。先看下面的图（数据仓库建设的7个主要环节）：本文，主要针对第三块数据仓库模型设计来讨论交流，尤其是互联网行业。一、关于数据仓库数据模型转存失败重新上传取消1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名；是业务人员和开发人员之间沟通的一套语言。2. 数据仓库数据模型的作用：统一企业的数据视图；...

2020-03-20 11:23:57 150

原创数据仓库架构-实时数仓演进

1 L离线数仓架构数据仓库从模型层面分为三层：ODS，操作数据层，保存原始数据； DW，数据仓库明细层，根据主题定义好事实与维度表，保存最细粒度的事实数据； DM，数据集市/轻度汇总层，在DWD层的基础之上根据不同的业务需求做轻度汇总；典型的数仓存储是HDFS/Hive，ETL可以是MapReduce脚本或HiveSQL。2 Lambda架构随着大数据应用的发展，人们逐渐...

2020-03-20 11:19:36 882

原创基于 Spark 的文本情感分析

文本情感分析是指对具有人为主观情感色彩文本材料进行处理、分析和推理的过程。文本情感分析主要的应用场景是对用户关于某个主题的评论文本进行处理和分析。比如，人们在打算去看一部电影之前，通常会去看豆瓣电影板块上的用户评论，再决定是否去看这部电影。另外一方面，电影制片人会通过对专业论坛上的用户评论进行分析，了解市场对于电影的总体反馈。本文中文本分析的对象为网络短评，为非正式场合的短文本语料，在只考虑...

2020-03-20 11:15:36 1715 1

原创 spark分词关键字提取改进

在提取关键词中，TF-IDF是比较常用的算法，spark mlib中也提供了TF以及IDF的方法，但是由于spark提供的TF算法是不可逆的，即无法获取TF的结果对应的原句子的文字，所以需要采用 CountVectorizer。提取关键词的过程如下：1、中文分词以及去掉停用词：中文分词使用的是ansj：maven如下：  <depe...

2020-03-20 11:13:38 916

haungtan07的博客