@SmartSi
Stay Hungry, Stay Foolish
展开
-
2024年09月数据月报
2024年09月数据月报,为您准备了阿里、字节、百度等大厂120多篇实践案例原创 2024-10-13 08:35:46 · 505 阅读 · 0 评论 -
2024年08月数据月报
2024年09月数据月报,为您准备了阿里、字节、百度等大厂150多篇实践案例原创 2024-09-08 20:44:44 · 2771 阅读 · 0 评论 -
Spark 应用程序部署工具spark-submit
1. 简介Spark的bin目录中的spark-submit脚本用于启动集群上的应用程序。 可以通过统一的接口使用Spark所有支持的集群管理器,因此不必为每个集群管理器专门配置你的应用程序(It can use all of Spark’s supported cluster managers through a uniform interface so you don’t have to co......原创 2017-02-16 20:08:53 · 6540 阅读 · 0 评论 -
2024年07月数据月报
2024年07月数据月报,为您准备了阿里、字节、百度等大厂120多篇实践案例原创 2024-08-03 20:41:28 · 1401 阅读 · 0 评论 -
用户画像实战:分布式全局字典设计与实现
当业务标签越来越多时,将不再适合,因为当列越多时,更新效率将会越慢。一种优化方案是通过对标签表构建索引,将用户ID编码后以 Bitmap 格式保存(一般使用进行压缩存储),将关系运算转化 Bitmap 的交并差运算,进而加速实时计算性能。如果用户 ID 是字符类型,需要先将用户ID进行整数编码才能使用 Bitmap 存储。原创 2024-07-20 16:22:03 · 697 阅读 · 0 评论 -
用户画像高分笔记
用户画像实战笔记与大厂案例原创 2024-07-20 16:56:36 · 566 阅读 · 0 评论 -
用户画像实战:基于 ROW_NUMBER 的全局字典设计与实现
当业务标签越来越多时,宽表标签计算的方案将不再适合,因为当列越多时,更新效率将会越慢。一种优化方案是通过对标签表构建索引,将用户ID编码后以 Bitmap 格式保存(一般使用 RoaringBitmap 进行压缩存储),将关系运算转化 Bitmap 的交并差运算,进而加速实时原创 2024-07-17 23:48:58 · 759 阅读 · 0 评论 -
2023年04月数据月报
2023年04月数据月报,为您准备了阿里、字节、百度等大厂80多篇实践案例原创 2024-07-06 09:49:32 · 1433 阅读 · 0 评论 -
2024年06月数据月报
2024年06月数据月报,为您准备了阿里、字节、百度等大厂130+篇实践案例原创 2024-07-06 09:43:06 · 838 阅读 · 0 评论 -
用户画像实战:使用宽表存储画像标签
如果在线画像分析服务按照这样的数据模型组织标签数据,不可避免的需要 Join 多张标签表来完成多标签的过滤,这对于数据库产品开销太大。我们可以将相对稳定的标签表离线聚合成宽表,将多张表的关联操作转化成对一张表的过滤计算,新的标签列的场景可以通过增加列的方式实现原创 2024-06-30 21:56:33 · 1057 阅读 · 0 评论 -
AirFlow 实战:安装与启动
1. 安装通过pip安装:xiaosi@yoona:~$ pip install airflow如果速度比较慢,可以使用下面提供的源进行安装:xiaosi@yoona:~$ pip install -i https://pypi.tuna.tsinghua.edu.cn/simple airflow如果出现下面提示,表示你的airflow安装成功了:Successfully installed原创 2017-08-02 18:23:30 · 12702 阅读 · 7 评论 -
论文系列-Lightweight Asynchronous Snapshots for Distributed Dataflows
分布式有状态流处理支持在云中部署和执行大规模连续计算,目标是实现低延迟和高吞吐量。这种模式的最大挑战就是在可能失败情况下如何提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传输中的记录以及算子状态,这会导致比所需的快照要更大。因此,提出了一种新的分布式快照的算法,即在 Apache Flink 中的异步屏障快照(Asynchronous Barrier Snapshotting (ABS))。原创 2022-09-27 23:47:43 · 249 阅读 · 0 评论 -
Hive 实战:位图 Bitmap 系列-位图计算函数
ClickHouse 提供了一系列用于位图索引和计算的函数,这些功能特别适用于处理大量的分布式聚合,可以高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建用户自定义函数来实现。在这我们基于 RoaringBitmap 实现了一系列的位图函数。原创 2024-06-15 13:32:50 · 1057 阅读 · 0 评论 -
Roaring Bitmap 更好的位图压缩算法
Bitsets(也称为Bitmaps)通常用作快速数据结构。不幸的是,他们可能会占用太多内存。为了降低内存的使用,我们经常会使用压缩的位图。Roaring Bitmaps 是一种压缩的位图,要优于常规的压缩位图,例如 WAH,EWAH 或者 Concise。在某些情况下,可以比它们快几百倍,并且通常提供更好的压缩。几乎所有流行的编程语言(Java,C,C ++,Go,C#,Rust,Python …)都提供了 Roaring Bitmaps。原创 2022-11-13 16:08:28 · 1382 阅读 · 0 评论 -
Hive 实战:位图 Bitmap 系列-group_bitmap UDAF 实现解析
在 ClickHouse 中,groupBitmap 函数用于从整数列聚合生成位图,常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建一个用户自定义聚合函数(UDAF)来实现 groupBitmap。这里将详细介绍如何在 Hive 中实现一个类似 groupBitmap 的自定义函数,包括 UDAF 的定义、编译、注册以及使用步骤。原创 2024-06-10 12:44:33 · 1651 阅读 · 2 评论 -
使用 Range-Encoded Bit-Slice Indexes 解决 Bitmap 范围查询和高基维问题
这篇文章中描述的所有概念都是基于过去几十年里一些非常聪明的人所做的研究。我只是从更高层次上描述这些事情,在阅读下面内容之前建议您先阅读更多关于 Bit-sliced Indexes 和 Range-Encoding 的内容。翻译 2023-03-05 15:36:04 · 518 阅读 · 0 评论 -
Hive 实战:位图 Bitmap 系列-bitmap_and 函数实现解析
在 ClickHouse 中,bitmapAnd 函数用于计算两个位图 Bitmap 的交集,常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建一个用户自定义函数(UDF)来实现 bitmapAnd。这里将详细介绍如何在 Hive 中实现一个类似 bitmapAnd 的 UDF,包括 UDF 的定义、编译、注册以及使用步骤。原创 2024-06-08 18:05:51 · 1204 阅读 · 0 评论 -
2024年05月数据月报
2024年05月数据月报,为您准备了阿里、字节、百度等大厂150+篇实践案例原创 2024-06-02 16:37:15 · 1903 阅读 · 0 评论 -
图解 CAP 理论
CAP 定理是分布式系统中的一个重要的基本定理,指出任何分布式系统最多只能具有以下三个属性中的其中两个:Consistency(一致性)Availability(可用性)Partition tolerance(分区容错)1998年,加州大学的计算机科学家 Eric Brewer 提出,分布式系统有上述三个指标。它们的第一个字母分别是 C、A、P。Eric Brewer 说,这三个指标不可能同时做到,因此这个结论就叫做 CAP 定理。1. 什么是CAP定理CAP定理指出任何分布式系统不可能原创 2022-05-29 14:57:53 · 380 阅读 · 0 评论 -
Docker 实战:macOS 如何访问数据卷路径
在 macOS 上,Docker 运行在一个以 LinuxKit 技术构建的轻量级虚拟机(VM)上,而非直接在宿主操作系统上。因此,当你使用 `docker volume inspect` 命令查看数据卷的 Mountpoint 时,这个路径是相对于 VM 的文件系统,而不是 macOS 的物理文件系统。这就是为什么你在 macOS 上无法直接找到这个路径的原创 2024-05-14 07:28:18 · 936 阅读 · 0 评论 -
ClickHouse 实战:ClickHouse 安装与启动
ClickHouse 可以在任何具有 x86_64、AArch64 或 PowerPC64LE CPU 架构的 Linux、FreeBSD 或 Mac OS X 上运行。官方预构建的二进制文件通常针对 x86_64 进行编译并利用 SSE 4.2 指令集原创 2024-05-05 18:39:10 · 1072 阅读 · 0 评论 -
ZooKeeper 实战:ZooKeeper Java API
ZooKeeper 大部分 API 都提供了同步和异步方法。同步方法一般会有返回值,并且会抛出相应的异常。异步方法没有返回值,也不会抛出异常原创 2024-05-07 23:05:34 · 1017 阅读 · 0 评论 -
ClickHouse 实战:使用 Docker Compose 部署 ClickHouse 集群
在今天的这篇文章中,我们将详细介绍如何使用 Docker Compose 来部署 ClickHouse 数据库。ClickHouse 是一个用于在线分析处理(OLAP)的列式数据库管理系统(DBMS),以其高速查询性能而闻名。使用 Docker Compose,我们可以方便地定义和运行多容器 Docker 应用程序,使部署 ClickHouse 变得更为简单和高效。原创 2024-05-16 07:39:32 · 883 阅读 · 0 评论 -
ClickHouse 实战:位图 Bitmap 函数
ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在处理大规模数据分析时,它提供了一个高性能的解决方案。ClickHouse 提供了一系列用于位图索引和计算的函数,这些功能特别适用于处理大量的分布式聚合。位图通常用于高效地表示一组元素的存在情况,例如,记录用户的行为或者在集合运算中快速确定唯一值等场景。原创 2024-05-19 17:35:03 · 841 阅读 · 0 评论 -
深入理解 Hive UDAF
用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式,第一种是 Simple 方式,第二种是 Generic 方式。} }AbstractGenericUDAFResolver 提供了一种简单的方法将以前实现 GenericUDAFResolver 接口的 UDAF 迁移到 GenericUDAFResolver2 接口上。原创 2022-11-21 14:35:49 · 1363 阅读 · 0 评论 -
Docker 实战:通过 Dockerfile 构建镜像
Docker 可以通过读取 Dockerfile 文件中的指令来自动构建镜像。Dockerfile 是一个文本格式的配置文件。本文首先将介绍 Dockerfile 典型的基本结构及其支持的众多指令,并具体讲解通过这些指令来编写定制镜像的 Dockerfile,以及如何生成镜像。原创 2024-05-02 17:33:23 · 1171 阅读 · 1 评论 -
Docker 实战:数据卷基本操作
数据卷(Data Volumes)是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进容器。原创 2024-05-01 16:32:01 · 98 阅读 · 0 评论 -
Docker 实战:容器基本操作
容器是 Docker 的另一个核心概念。简单来说,容器是镜像的一个运行实例。所不同的是,镜像是静态的只读文件,而容器带有运行时需要的可写文件层,同时,容器中的应用进程处于运行状态。原创 2024-04-30 16:16:19 · 711 阅读 · 0 评论 -
Docker 实战:dockerfile parse error on line 1: FROM requires either one or three arguments
可以看出以 ‘#’ 开头的一行被视为注释,即注释需要单独作为一行。如果出现在其他位置会被视为参数,也就不难理解报错原因了。原创 2024-04-29 20:09:28 · 497 阅读 · 0 评论 -
ZooKeeper 实战:使用 Docker Compose 部署 ZooKeeper 集群
ZooKeeper是一个开源的分布式协调服务,用于管理大型分布式系统中的数据。它由Apache软件基金会提供,最初是Hadoop的一个子项目,但后来发展成为一个独立的顶级项目。ZooKeeper提供的一致性协调服务对于构建分布式应用和服务非常重要,特别是在需要精确的领导选举、配置管理、命名服务、分布式同步和提供分布式锁等功能时。原创 2024-05-05 18:19:18 · 769 阅读 · 3 评论 -
Docker 实战:使用 Docker Compose 部署 WordPress
WordPress是世界上最受欢迎的内容管理系统(CMS)之一,特别是对于个人博客来说。自2003 年首次发布以来,它已经从一个简单的博客平台发展成为一个功能丰富的网站建设工具。WordPress 作为个人博客平台提供了无与伦比的简便性、灵活性和功能性,使其成为全球数百万博主的首选。Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。然后,使用一个简单的命令,就可以创建并启动所有配置中的服务。原创 2024-05-04 08:47:54 · 1112 阅读 · 0 评论 -
2024年04月数据月报
2024年04月数据月报,为您准备了阿里、字节、百度等大厂100多篇实践案例原创 2024-05-07 07:49:38 · 374 阅读 · 0 评论 -
Docker 实战:使用 Docker Compose 部署 MySQL
Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。然后,使用一个简单的命令,就可以创建并启动所有配置中的服务。这让组织和管理容器变成了一件轻而易举的事情。在开始之前,首先需要确保已经安装了 Docker Compose,如果没有安装或者不熟悉 Compose 的具体查阅Docker 实战:使用 Docker Compose 实现高效的多容器部署。原创 2024-05-03 22:41:18 · 1167 阅读 · 0 评论 -
ZooKeeper 实战:ZooKeeper 伪集群模式安装与启动
要在你的计算机上安装 ZooKeeper 框架,请访问该链接并下载最新版本的ZooKeeper。到目前为止,最新稳定版本的 ZooKeeper是3.4.12(ZooKeeper-3.4.12.tar.gz)。使用以下命令提取tar文件:cd ~/opt/$ tar -zxf zookeeper-3.4.12.tar.gz创建软连接,便于升级:$ sudo ln -s zookeeper-3.4.12/ zookeeper创建数据目录:$ cd zookeeper$ mkdi原创 2022-05-10 09:17:16 · 440 阅读 · 1 评论 -
ZooKeeper 实战:ZooKeeper 集群模式安装与启动
1. 安装要在你的计算机上安装 ZooKeeper 框架,请访问该链接并下载最新版本的ZooKeeper。到目前为止,最新稳定版本的 ZooKeeper是3.4.12(ZooKeeper-3.4.12.tar.gz)。使用以下命令提取tar文件:cd ~/opt/$ tar -zxf zookeeper-3.4.12.tar.gz创建软连接,便于升级:$ sudo ln -s zookeeper-3.4.12/ zookeeper创建数据目录:$ cd zookeeper$ mkdi原创 2022-05-10 09:14:56 · 1216 阅读 · 1 评论 -
Docker 实战:在 Docker 中安装 Redis
本文章将介绍如何使用 Docker 探索 Redis。我们可以在 Docker for Windows 、Docker for mac 或者 Linux 模式下运行 Docker 命令。本文是基于Docker for mac。原创 2024-04-30 12:04:49 · 306 阅读 · 0 评论 -
Docker 实战:镜像基本操作
镜像是运行容器的前提,官方的 Docker Hub 网站已经提供了数十万个镜像供大家开放下载。本文主要介绍 Docker 镜像的基本操作。原创 2024-04-29 22:44:08 · 674 阅读 · 0 评论 -
Docker 实战:镜像内部结构
为什么我们要讨论镜像的内部结构?如果只是使用镜像,当然不需要了解,直接通过 docker 命令下载和运行就可以了。但如果我们想要创建自己的镜像,或者想理解 Docker 为什么是轻量级的,就非常有必要学习这部分知识了。我们以两个镜像为例来讲解一个镜像的内部构成。原创 2024-04-28 16:29:25 · 746 阅读 · 0 评论 -
Docker 实战:使用 Docker Desktop 在 MacOS 上安装 Docker
在这采用 Docker Desktop 在 Mac 上来安装 Docker。Docker Desktop 是 Docker 的管理桌面 IDE,提供了一个直观的GUI(图形用户界面),允许您直接在本机上管理容器、应用程序以及镜像。适用于 Mac、Linux 以及 Windows 环境,允许您构建、共享和运行容器化应用程序和微服务。Docker Desktop 可以大大降低在复杂配置上的时间,因此您可以专注于编写代码。它负责端口映射、文件系统问题和其他默认设置,并定期更新 Bug 修复和安全更新。原创 2024-04-28 15:19:47 · 4139 阅读 · 0 评论 -
Calcite 实战 自定义实现 CSV Adapter 实现 SQL 查询
利用 Calcite 快速实现 SQL 查询 CSV 文件原创 2023-05-27 17:13:32 · 698 阅读 · 0 评论