- 博客(2357)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
转载 走近数据变更捕获(CDC):定义、优势和用例
数据变更捕获(CDC)是一种捕捉数据变更的技术。它能实时监控数据源(如数据库、应用系统等)中数据的增、删、改等变化,并记录下这些变更信息。与传统批处理方式相比,CDC 实现了近乎实时的数据集成和同步,使企业能够随时掌握最新信息,从而基于数据做出及时决策。
2024-06-30 08:50:48 52
原创 快手如何从0到1构建一个好的用户画像平台?
在快手从 0 到 1 搭建起快手画像平台,也见证了平台在各个业务端应用的过程,基于这些工作经验的总结和沉淀,其编写了《用户画像:平台构建与业务实践》一书,本次分享的内容大部分也包含在本书中。
2024-06-29 21:49:45 864
原创 Hive 实战:位图 Bitmap 系列-位图计算函数
ClickHouse 提供了一系列用于位图索引和计算的函数,这些功能特别适用于处理大量的分布式聚合,可以高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建用户自定义函数来实现。在这我们基于 RoaringBitmap 实现了一系列的位图函数。
2024-06-15 13:32:50 1015
转载 字节用户画像标签分析及业务场景应用
随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。
2024-06-13 07:12:52 87
原创 Hive 实战:位图 Bitmap 系列-group_bitmap UDAF 实现解析
在 ClickHouse 中,groupBitmap 函数用于从整数列聚合生成位图,常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建一个用户自定义聚合函数(UDAF)来实现 groupBitmap。这里将详细介绍如何在 Hive 中实现一个类似 groupBitmap 的自定义函数,包括 UDAF 的定义、编译、注册以及使用步骤。
2024-06-10 12:44:33 1612 2
原创 Hadoop 实战:找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
在运行 Hive SQL 程序时抛出异常,查看 YARN 的 resourcemanager 日志发现异常
2024-06-09 22:28:28 963 1
原创 Hive 实战:位图 Bitmap 系列-bitmap_and 函数实现解析
在 ClickHouse 中,bitmapAnd 函数用于计算两个位图 Bitmap 的交集,常用于高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数,我们可以通过创建一个用户自定义函数(UDF)来实现 bitmapAnd。这里将详细介绍如何在 Hive 中实现一个类似 bitmapAnd 的 UDF,包括 UDF 的定义、编译、注册以及使用步骤。
2024-06-08 18:05:51 1151
转载 基于用户投票的排名算法(六):贝叶斯平均
上一篇介绍了威尔逊区间,它解决了投票人数过少、导致结果不可信的问题。举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后
2024-06-08 09:11:11 56
转载 基于用户投票的排名算法(五):威尔逊区间
迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章"。但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因素的情况下,如何给出排名
2024-06-08 09:02:10 51
转载 基于用户投票的排名算法(四):牛顿冷却定律
如果你想放慢 “热文排名” 的更新率,“冷却系数” 就取一个较小的值,否则就取一个较大的值。但是,为了保证所有人都在同一页上,我再说一下,到目前为止,我们用不同方法,企图解决的都是同一个问题:根据用户的投票,决定最近一段时间内的 “热文排名”。这样假设的意义,在于我们可以照搬物理学的冷却定律,使用现成的公式,建立 “温度” 与 “时间” 之间的函数关系,轻松构建一个 “指数式衰减”(Exponential decay)的过程。你可能会觉得,这是一个全新的课题,伴随着互联网而产生,需要全新的方法来解决。
2024-06-07 22:20:51 605
转载 基于用户投票的排名算法(三):Stack Overflow
上一篇文章,我介绍了 Reddit 的排名算法。它的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。但是,还有一些特定用途的网站,必须考虑更多的因素。世界排名第一的程序员问答社区 [Stack Overflow](http://stackoverflow.com/?tab=hot),就是这样一个网站。
2024-06-07 07:00:21 56
转载 基于用户投票的排名算法(二):Reddit
得到净反对票的文章,会排在最后(因为得分 是负值)。假定同一时间有两个帖子发表,文章 A 有 1 张赞成票(发帖人投的)、0 张反对票,文章 B 有 1000 张赞成票、1000 张反对票,那么 A 的排名会高于 B,这显然不合理。结合前一部分,可以得到结论,如果前一天的帖子在第二天还想保持原先的排名,在这一天里面,它的 z 值必须增加 100 倍(净赞成票增加 100 倍)。结论就是,Reddit 的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。
2024-06-06 07:47:07 65
转载 基于用户投票的排名算法(一):Delicious 和 Hacker News
互联网的出现,意味着 “信息大爆炸”。用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。
2024-06-06 07:26:06 59
转载 流计算系统选哪个?
今天从技术的角度聊聊流计算(Streaming)技术。尽管概念上有许多共通之处,例如时间窗口、水位(Watermark)等等,但其实在实现层面上,各个系统几乎都有独特的设计。所谓“存在即合理”,这种系统设计的多样性也正呼应了流计算应用场景的多样性,而并非简单的单一维度上的孰好孰坏。本文从内部实现的角度,深入对比了市面上常见的流计算系统,包括 Apache Flink、RisingWave、Spark Streaming、ksqlDB 等。希望这篇文章能在技术选型时对你有帮助。
2024-06-05 22:08:09 56
转载 RisingWave: 一个云原生流数据库
流处理系统(下文简称流系统)是现代数据栈中十分重要的技术方向,它们是针对流数据的实时分析而量身定做的。在过去的几十年里,研究人员和从业人员投入了大量的精力来开发大规模,高性能和高可用的流处理系统。基于这些努力,现如今,开源抑或商业化的流系统已在各大公司的技术栈中长期运行,支持着成千上万的应用,包括广告推荐、欺诈检测、物联网分析,诸如此类。随着流处理领域取得的重大进展,越来越多的公司开始研究现代流系统,并渴望看到现代技术如何改变他们的业务。可惜的是,其中许多公司在他们的试水过程中陷入困境。
2024-06-04 23:11:02 45
转载 重新定义流计算:第三代流处理系统 RisingWave 的 2024 年展望
流处理技术在过去的 20 年里经历了从学术概念到商业应用的演变。流处理系统从无到有,我们见证了从第一代数据流管理系统如 IBM System S、Oracle CQL、Esper 等,到第二代基于 MapReduce 思想发展出的分布式流计算平台,如 Apache Spark Streaming、Apache Flink 等,再到如今的第三代云原生流处理系统,如 RisingWave。这一发展标志着流处理技术的普及和简化,已成为众多行业中不可或缺的关键技术。
2024-06-03 21:17:47 62
原创 PostgresSQL 实战:使用 Docker Compose 部署 PostgreSQL
在众多的数据库管理系统中,PostgreSQL(通常简称为Postgres)以其先进的特性、卓越的稳定性、丰富的数据类型及其开源性质而脱颖而出。作为一个对象关系数据库,Postgres不仅提供了传统的表格数据库所具备的功能,还在此基础上加入了对复杂数据结构的支持,比如JSON、地理空间数据等。Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。
2024-06-02 13:09:10 3176
转载 算法在 58 画像平台建设中的应用
用户画像平台是企业应用大数据的根基,精准营销、精细化运营和个性化推荐都离不开用户画像的建设。精准地刻画用户行为、兴趣以及需求尤为重要。本文将探讨算法在 58 用户画像平台建设中的作用,包括画像标签体系的建设,个性化推荐、精细化运营等业务应用。
2024-05-31 13:16:10 40
原创 ZooKeeper 实战:如何使用 Watcher
例如针对 NodeDataChanged 事件,ZooKeeper 的 Watcher 只会通知客户端指定数据节点的数据内容发生了变更,而对于原始数据以及变更后的新数据都无法从这个事件中直接获取到,而是需要客户端主要重新去获取数据——这也是 ZooKeeper 的 Watcher 机制的一个非常重要的特性。客户端Watcher回调的过程是一个串行同步的过程,这为我们保证了顺序,同时,需要开发人员注意的一点是,千万不要因为一个Watcher的处理逻辑影响了整个客户端的Watcher回调。
2024-05-29 07:58:19 970
原创 Hive 2.3.4 does not implement the requested interface org.roaringbitmap.BitmapDataProvider
错误信息提示 `org.roaringbitmap.RoaringBitmap` 没有实现所需的 `org.roaringbitmap.BitmapDataProvider` 接口
2024-05-22 07:45:03 65
原创 ClickHouse 实战:位图 Bitmap 函数
ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在处理大规模数据分析时,它提供了一个高性能的解决方案。ClickHouse 提供了一系列用于位图索引和计算的函数,这些功能特别适用于处理大量的分布式聚合。位图通常用于高效地表示一组元素的存在情况,例如,记录用户的行为或者在集合运算中快速确定唯一值等场景。
2024-05-19 17:35:03 806
原创 ClickHouse 实战:使用 Docker Compose 部署 ClickHouse 集群
在今天的这篇文章中,我们将详细介绍如何使用 Docker Compose 来部署 ClickHouse 数据库。ClickHouse 是一个用于在线分析处理(OLAP)的列式数据库管理系统(DBMS),以其高速查询性能而闻名。使用 Docker Compose,我们可以方便地定义和运行多容器 Docker 应用程序,使部署 ClickHouse 变得更为简单和高效。
2024-05-16 07:39:32 817
原创 实时数据分析数据库 ClickHouse 介绍
`ClickHouse` 是 `战斗民族` 俄罗斯搜索巨头 `Yandex` 公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS,圈内人戏称为“喀秋莎数据库”。`ClickHouse`有一个简称 `CK`,与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级
2024-05-15 07:01:13 1978
原创 Docker 实战:macOS 如何访问数据卷路径
在 macOS 上,Docker 运行在一个以 LinuxKit 技术构建的轻量级虚拟机(VM)上,而非直接在宿主操作系统上。因此,当你使用 `docker volume inspect` 命令查看数据卷的 Mountpoint 时,这个路径是相对于 VM 的文件系统,而不是 macOS 的物理文件系统。这就是为什么你在 macOS 上无法直接找到这个路径的
2024-05-14 07:28:18 907
原创 MinIO 实战:使用 Docker Compose 部署 MinIO 集群
MinIO 是一个高性能、兼容 AWS S3 的开源对象存储解决方案。它适用于存储大量非结构化数据,比如照片、视频、日志文件等。MinIO 可以在单机模式下运行,也可以配置为高可用的分布式模式。在本教程中,我们将使用 Docker Compose 在本地环境中部署一个三节点的 MinIO 集群。
2024-05-12 08:34:50 2923
原创 Docker 实战:使用 Docker Compose 部署实现跨项目网络访问
在 Docker 和 Docker Compose 中部署跨项目(即跨 docker-compose.yml 文件)的容器网络访问是一个常见的需求,尤其是在微服务架构和分布式系统中。实现这一目标的关键在于使用 Docker 的网络特性,确保不同 Docker Compose 项目中的容器能够相互通信。
2024-05-12 00:12:54 1185
原创 ZooKeeper 实战:ZooKeeper Java API
ZooKeeper 大部分 API 都提供了同步和异步方法。同步方法一般会有返回值,并且会抛出相应的异常。异步方法没有返回值,也不会抛出异常
2024-05-07 23:05:34 1002
原创 Git push 的时候需要输入用户名和密码解决方案
在使用 `git push -u origin main` 命令推送远程分支时要求输入用户名和密码
2024-05-07 07:41:17 1291
原创 ClickHouse 实战:ClickHouse 安装与启动
ClickHouse 可以在任何具有 x86_64、AArch64 或 PowerPC64LE CPU 架构的 Linux、FreeBSD 或 Mac OS X 上运行。官方预构建的二进制文件通常针对 x86_64 进行编译并利用 SSE 4.2 指令集
2024-05-05 18:39:10 1034
原创 ZooKeeper 实战:使用 Docker Compose 部署 ZooKeeper 集群
ZooKeeper是一个开源的分布式协调服务,用于管理大型分布式系统中的数据。它由Apache软件基金会提供,最初是Hadoop的一个子项目,但后来发展成为一个独立的顶级项目。ZooKeeper提供的一致性协调服务对于构建分布式应用和服务非常重要,特别是在需要精确的领导选举、配置管理、命名服务、分布式同步和提供分布式锁等功能时。
2024-05-05 18:19:18 750 3
原创 ZooKeeper 实战:使用 Docker 搭建 Zookeeper 集群
ZOO_MY_ID 和 ZOO_SERVERS 是搭建 Zookeeper 集群需要设置的两个环境变量, 其中 ZOO_MY_ID 表示 Zookeeper 服务的 id, 它是1-255 之间的整数, 必须在集群中唯一。上述配置将以副本模式启动 Zookeeper 3.5.8,同时会告诉 Docker 运行三个 Zookeeper 容器:zoo1、zoo2、zoo3,并分别将本地的 2181, 2182, 2183 端口绑定到对应的容器的 2181 端口上。默认端口是8080。暴露端口主要是镜像包含了。
2024-05-05 15:53:38 2138 1
原创 Docker 实战:使用 Docker Compose 部署 WordPress
WordPress是世界上最受欢迎的内容管理系统(CMS)之一,特别是对于个人博客来说。自2003 年首次发布以来,它已经从一个简单的博客平台发展成为一个功能丰富的网站建设工具。WordPress 作为个人博客平台提供了无与伦比的简便性、灵活性和功能性,使其成为全球数百万博主的首选。Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。然后,使用一个简单的命令,就可以创建并启动所有配置中的服务。
2024-05-04 08:47:54 1049
原创 Docker 实战:使用 Docker Compose 部署 MySQL
Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可以通过一个 YAML 文件来配置您的应用的服务。然后,使用一个简单的命令,就可以创建并启动所有配置中的服务。这让组织和管理容器变成了一件轻而易举的事情。在开始之前,首先需要确保已经安装了 Docker Compose,如果没有安装或者不熟悉 Compose 的具体查阅Docker 实战:使用 Docker Compose 实现高效的多容器部署。
2024-05-03 22:41:18 1109
原创 Docker 实战:使用 Docker Compose 实现高效的多容器部署
Docker Compose 是一个工具,允许用户通过一个 YAML 文件定义和运行多容器 Docker 应用程序。使用 Compose,你可以在一个文件中配置你的应用服务、网络和数据卷,然后通过一个简单的命令创建和启动你的所有服务。这极大地简化了 Docker 容器的管理过程,特别是对于涉及多个相互依赖容器的复杂应用。具有如下核心特性:服务定义:在。
2024-05-03 13:49:59 1175 4
原创 Docker 实战:通过 Dockerfile 构建镜像
Docker 可以通过读取 Dockerfile 文件中的指令来自动构建镜像。Dockerfile 是一个文本格式的配置文件。本文首先将介绍 Dockerfile 典型的基本结构及其支持的众多指令,并具体讲解通过这些指令来编写定制镜像的 Dockerfile,以及如何生成镜像。
2024-05-02 17:33:23 1093 1
Android应用开发揭秘
2015-12-17
Android开发秘籍
2015-12-17
Android开发精要
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Mahout算法解析与案例实战
2015-12-16
LINUX内核设计与实现
2015-12-14
重构-改善即有代码的设计
2015-12-14
算法艺术和信息学竞赛
2015-12-14
apache-mahout-distribution-0.11.1-src
2015-11-30
log4j-1.2.17
2015-11-30
apache-maven-3.3.9-bin
2015-11-30
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
Redis 入门指南
2017-06-02
Apache Spark源码剖析
2016-11-12
Shell脚本学习指南
2016-05-28
精通Spring
2016-02-07
Spring-Jar-4.2.4
2016-01-28
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
大型网站技术核心原理与案例分析
2015-12-25
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人