自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

进一步有进一步的欢喜~

欢迎一起探讨算法知识~

  • 博客(371)
  • 资源 (1)
  • 收藏
  • 关注

原创 模态双侠闯江湖:SimTier 分层破局,MAKE 智炼新知

尽管多模态数据在提升模型准确性方面的潜力已得到认可,但包括淘宝展示广告系统在内的许多大规模工业推荐系统,仍主要依赖模型中的稀疏ID特征。在这项工作中,我们探索了利用多模态数据提升推荐准确性的方法。我们首先确定了在工业系统中高效且经济地采用多模态数据的关键挑战。为应对这些挑战,我们引入了一个两阶段框架,包括:1)预训练多模态表示以捕捉语义相似性,2)将这些表示与现有基于ID的模型集成。此外,我们详细介绍了生产系统的架构,该架构旨在促进多模态表示的部署。自2023年中期集成多模态表示以来,淘宝展示广告系统的性能

2025-04-19 16:59:11 903

原创 从 “单细胞” 到 “数据森林”:层次聚类的 “自底向上” 生长法则

在机器学习的无监督学习领域,聚类算法是探索数据内在结构的重要工具。层次聚类(Hierarchical Clustering)因其能够生成数据的层次化分组结构,在生物信息学、市场分析、文本挖掘等领域得到广泛应用。本文将从核心概念、算法原理、实现方法等方面深入解析层次聚类,并通过代码示例演示其在Python中的应用。

2025-04-19 16:20:46 825

原创 工业级向量检索核心技术:IVF-PQ原理与全流程解析

在大规模高维向量检索场景中,IVF-PQ(倒排索引结合乘积量化)凭借“粗筛范围+细算距离”的双重加速策略,成为核心解决方案。本文将深入解析其原理与全流程,助力开发者掌握这一关键技术。

2025-04-19 14:43:55 653

原创 长期行为序列建模技术演进:从SIM到TWIN-v2

在推荐系统与广告投放领域,长期行为序列建模旨在从用户数月甚至数年的历史行为中捕捉稳定兴趣模式,是解决冷启动、提升推荐精度的关键。随着工业界需求激增,SIM、ETA、SDIM、TWIN及TWIN-v2等模型相继诞生,推动技术不断革新。以下将按序深入解析这些模型的原理、创新及实践意义。

2025-04-19 01:46:11 955

原创 局部敏感哈希实践:以四维空间中随机投影法为例

本文以四维向量为例,实践局部敏感哈希(LSH)技术,通过随机投影法将高维向量映射到低维空间,利用哈希桶聚集相似向量,再通过二进制码与汉明距离量化相似度(如近邻向量汉明距离仅1)。结合约翰逊-林登施特劳斯引理等数学原理,解析投影生成、分桶规则、代码实现及参数调优,展现LSH如何将高维数据相似性搜索复杂度从 O(N) 降至高效可计算范围,为图像检索、推荐系统等提供关键技术支持。

2025-04-19 01:16:08 638

原创 一文读懂局部敏感哈希:原理、应用与实践

在当今数据呈爆炸式增长的时代,从海量的高维数据中快速找出相似数据,成为了计算机视觉、自然语言处理等众多领域亟待解决的难题。而局部敏感哈希(Locality - Sensitive Hashing,LSH) ,就像一把神奇的钥匙,为我们打开了高效解决这一问题的大门。接下来,就让我们一同深入探索LSH的奥秘吧!

2025-04-19 00:45:36 1064

原创 跨次元牵线:推荐系统中异构序列 Embedding 空间对齐技术

针对推荐系统中商品访问序列与页面访问序列的维度异构问题,本文系统研究跨序列Embedding空间对齐技术。通过分析异构序列的特征差异与语义鸿沟,提出基于双塔模型、图神经网络、对比学习及多模态迁移学习的对齐方法,构建从独立编码到跨空间约束的技术体系。实验表明,所提方法显著提升跨维度语义关联建模能力,为解决推荐系统冷启动与稀疏交互问题提供新路径。

2025-04-17 09:22:30 1112

原创 InfoNCE:在特征空间中,正样本和负样本的拔河比赛 —— 从对比学习到多模态融合的全解析

在无监督学习与自监督学习的技术版图中,InfoNCE(Noise-Contrastive Estimation for Neural Networks)损失函数如同基石般重要。它通过对比正、负样本的巧妙设计,让模型在缺乏标注数据的情况下,能够自主学习到数据的语义结构和判别性特征。本文将从基础原理、数学推导、代码实现到实际应用场景进行拆解,帮助大家深入理解对比学习技术大图。

2025-04-17 08:57:23 1084

原创 Python精进系列:从 __name__ 开始了解 python 常见内置变量

在Python编程的世界里,`__name__`是一个既特殊又常用的内置变量。无论是初涉Python的新手,还是经验丰富的开发者,理解`__name__`变量的工作机制都至关重要。它不仅关乎代码的结构组织,还对模块的正确使用和调试有着深远影响。本文将深入探讨`__name__`变量的各个方面,通过丰富的代码案例,帮助大家全面掌握这一重要概念。

2025-04-05 20:31:34 599

原创 推荐系统的注意力进化:从 Self-Attention 到 Target-Attention

在深度学习和人工智能蓬勃发展的当下,推荐系统已成为众多互联网产品的核心竞争力。而注意力机制,作为推荐系统中的关键技术,正发挥着举足轻重的作用。本文将深入探讨注意力机制及其在推荐系统中的多种变体,如Self - Attention、Target - Attention和双层Attention。

2025-04-05 15:37:41 1106

原创 告别低效融合!NOVA 机制如何让序列推荐 “如虎添翼”

“Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation”由香港大学和华为诺亚方舟实验室的学者发表于2021年。这篇论文聚焦于序列推荐系统,提出非侵入式自注意力(NOVA)机制和NOVA-BERT框架,有效融合辅助信息,提升推荐性能。

2025-04-04 18:54:18 874

原创 循相似之迹:解锁协同过滤的核心推荐逻辑

协同过滤是推荐系统的经典技术,原理简单、易实现,在电商、音乐、视频等很多领域广泛应用。不过它也面临数据稀疏性和冷启动等问题。随着技术发展,可结合深度学习、内容推荐等其他技术改进协同过滤算法,提升推荐系统性能和准确性,给用户更个性化、精准的推荐服务。

2025-03-29 21:35:38 719

原创 图解多头注意力机制:维度变化一镜到底

多头注意力(Multi-Head Attention)是Transformer模型的核心组件,其核心思想是通过 ‌并行处理多个子空间‌ 来捕捉序列中不同位置间的复杂依赖关系。

2025-03-16 23:59:41 906

原创 IntelliJ IDEA 快捷键系列:重命名快捷键详解

在代码重构中,‌重命名变量、类、方法‌ 是最常用的操作之一。正确使用快捷键可以极大提升开发效率。本文针对 ‌Mac‌ 和 ‌Windows‌ 用户,详细讲解 IntelliJ IDEA 中的重命名功能,并附上操作技巧和常见问题解决。

2025-03-16 16:04:26 613

原创 Python精进系列:数据筛选利器之布尔索引

在Python编程中,尤其是在处理数据时,经常需要从数据集中筛选出符合特定条件的元素。布尔索引(Boolean Indexing)就是Python中一种非常强大且灵活的数据筛选技术,它允许使用布尔数组来选择数据结构(如列表、NumPy数组、Pandas数据框等)中的元素。布尔索引不仅提高了代码的简洁性,还能显著提升数据筛选的效率。本文将介绍Python布尔索引的基本概念、工作原理、应用场景以及使用时的注意事项。

2025-03-16 07:57:50 773

原创 Python精进系列: K-Means 聚类算法调用库函数和手动实现对比分析

本文将详细介绍 K-Means 聚类算法,并分别给出调用现成函数和不调用任何现成函数实现 K-Means 聚类的代码示例,同时对两种实现方式进行对比分析。

2025-03-16 07:57:40 1045

原创 Python精进系列: NumPy 中 np.dot 与 np.matmul 对比学习

在科学计算和数据分析领域,NumPy 是 Python 中一个至关重要的库,它提供了高效的多维数组对象以及对这些数组进行各种操作的函数。其中,`np.dot` 和 `np.matmul` 是两个常用的用于数组乘法的函数。虽然它们都能实现数组的乘法运算,但在具体的使用场景和行为上存在一些差异。本文将深入对比 `np.dot` 和 `np.matmul`,帮助更好地理解和选择合适的函数进行数组乘法运算。

2025-03-16 07:57:36 912

原创 Python精进系列:利用生成器高效处理数据

在Python编程领域,数据处理的效率和内存使用是开发者常常关注的问题。生成器(Generator)作为Python中一种独特且强大的特性,为解决这些问题提供了有效的方案。生成器结合了迭代器的优点,以一种简洁、高效的方式生成数据序列,避免了一次性将大量数据加载到内存中,从而节省了内存资源。本文将深入探讨Python生成器的基本概念、工作原理、应用场景以及使用时的注意事项。

2025-03-16 07:57:30 713

原创 Python精进系列:利用迭代器高效遍历数据

在Python编程中,数据的遍历和处理是非常常见的操作。迭代器(Iterator)作为Python中一种强大且高效的数据遍历机制,为开发者提供了一种统一、灵活的方式来访问各种数据结构中的元素。无论是列表、元组、字典还是自定义的数据类型,迭代器都能让我们以简洁、高效的方式逐个访问其中的元素。本文将深入探讨Python迭代器的基本概念、工作原理、应用场景以及使用时的注意事项。

2025-03-16 07:57:24 578

原创 Python精进系列:高阶函数与 Lambda 表达式

在 Python 编程中,有几个强大的工具能够显著提升数据处理的效率和代码的简洁性,它们分别是 `map`、`zip`、`filter`、`reduce` 函数以及 `lambda` 表达式。这些工具在函数式编程范式中扮演着重要角色,允许开发者以简洁、高效的方式处理数据集合。本文将深入探讨这些工具的基本概念、用法以及它们之间常见的组合用法。

2025-03-16 07:57:19 777

原创 Python精进系列:用 assert 助力函数调试与验证

在 Python 编程中,确保代码的正确性和稳定性是至关重要的。而 `assert` 函数就是 Python 为开发者提供的一个强大工具,用于在代码中插入调试和验证语句。它可以帮助开发者在开发和测试阶段快速定位问题,确保程序的状态和数据符合预期。本文将深入探讨 Python `assert` 函数的基本概念、工作原理、应用场景以及使用时的注意事项。

2025-03-16 07:57:12 1056

原创 Python精进系列:用回调函数让程序控制更灵活

在Python编程的丰富生态中,回调函数(Callback Function)扮演着极为重要的角色,它为程序的流程控制与功能扩展提供了高度的灵活性。回调函数本质上是一种函数式编程概念,通过将函数作为参数传递给其他函数,在特定事件发生或特定条件满足时被调用执行。这种机制打破了传统程序按顺序执行的固有模式,使得代码能够根据不同的运行时情境动态调整行为。本文将深入探讨Python回调函数的基本概念、工作原理、应用场景以及使用时的注意事项,帮助大家理解和掌握回调函数。

2025-03-16 07:57:02 936

原创 Python精进系列:通过闭包实现代码封装与复用

在Python编程领域,闭包(Closure)作为一项独特且强大的特性,为开发者提供了一种精巧的代码组织与复用方式。它在函数式编程和面向对象编程之间架起了一座桥梁,通过巧妙地利用函数作用域和变量生命周期,实现了数据的封装与行为的定制。本文将深入探讨Python闭包的概念、原理、应用场景以及注意事项,力求掌握这一重要的编程技巧。

2025-03-16 07:50:34 534

原创 Python精进系列:让编程更甜蜜的语法糖

在 Python 中,语法糖(Syntactic Sugar)就像是一颗颗甜蜜的糖果,为开发者带来了更加简洁、优雅和易读的编程体验。语法糖并非 Python 语言的核心功能,但它们能让代码书写变得更加轻松愉快,提升开发效率。本文将深入探讨 Python 中常见的语法糖,包括它们的定义、工作原理、应用场景以及使用时的注意事项,帮助大家更好地利用这些甜蜜的特性。

2025-03-15 16:09:26 750

原创 Python精进系列:用装饰器实现代码复用与功能增强

装饰器(Decorator)宛如一个神奇的魔法工具,为开发者提供了一种简洁、优雅且强大的方式来修改或扩展函数、类的行为。它允许在不修改原有代码的基础上,为函数或类添加额外的功能,如日志记录、性能测试、权限验证等。这种特性极大地提高了代码的复用性和可维护性,使得代码结构更加清晰和模块化。本文将深入探讨 Python 装饰器的原理、使用方法、常见应用场景以及注意事项。

2025-03-15 16:05:53 896

原创 Python精进系列:解包(Unpacking)用法之 *args 和 **kwargs

解包(Unpacking)是Python编程一项极为实用且强大的特性。它能够以简洁、直观的方式将数据结构中的元素分离出来,赋予开发者高效处理数据的能力。无论是在函数调用、变量赋值,还是在复杂数据结构的操作中,解包都发挥着不可或缺的作用。本文将深入剖析Python解包的工作原理、常见应用场景以及相关的注意事项。

2025-03-15 16:02:13 686

原创 Python精进系列:隐藏能力之魔术方法

本文将深入探索 Python 魔术方法的奥秘,详细介绍常见魔术方法的用途和应用场景,同时通过丰富的示例代码帮助读者更好地理解和运用这些强大的工具。

2025-03-15 15:56:04 937

原创 Hive SQL 精进系列: JSON_TUPLE 快速提取多键值

Hive 作为大数据处理的常用工具,提供了诸多处理 JSON 数据的函数,`json_tuple`、`get_json_object` 和 `from_json` 便是其中重要的几个。`json_tuple` 能够高效地从 JSON 字符串中提取指定的键对应的值。本文将详细介绍 `json_tuple` 函数的语法、应用场景,同时与 `get_json_object`、`from_json` 进行对比,并阐述使用时的注意事项。

2025-03-15 14:32:54 1030

原创 Hive SQL 精进系列:PERCENTILE_APPROX 搞定分位数

百分位数作为一种常用的统计指标,能够帮助我们了解数据的分布情况。Hive SQL 提供了 `percentile_approx` 函数,用于近似计算百分位数。与精确计算百分位数的函数相比,`percentile_approx` 在处理大规模数据时具有更高的性能和更低的内存开销。

2025-03-15 14:23:38 1318

原创 Hive SQL 精进系列:一行变多行的 LATERAL VIEW EXPLODE

当处理复杂数据结构时,例如数组和映射类型的数据,普通的 SQL 操作可能无法满足需求。而 `LATERAL VIEW EXPLODE` 这一组合功能就成为了解决这类问题的强大工具。本文将深入探讨 `LATERAL VIEW EXPLODE` 的原理、语法、使用场景,并通过丰富的案例来更好地理解帮掌握这一工具。

2025-03-15 14:15:50 1097

原创 Hive SQL 精进系列:FROM_JSON 函数的应用

JSON 以其简洁、易读且易于解析的特点,被广泛应用于数据交换和存储。Hive SQL 作为大数据处理的重要工具,提供了 `from_json` 和 `get_json_object` 这两个用于处理 JSON 数据的函数。本文将详细介绍 `from_json` 函数的语法、应用场景,同时对比 `from_json` 与 `get_json_object` 的差异,以及使用时的注意事项。

2025-03-15 14:06:16 956

原创 Hive SQL 精进系列:解锁 Hive SQL 中 KeyValue 函数的强大功能

`KeyValue` 函数作为一个独具特色的工具,在处理包含键值对信息的字符串时发挥着重要作用。它能够按照特定规则拆分字符串,精准提取出我们所需的键对应的值。本文将全方位深入剖析 `KeyValue` 函数,涵盖其语法、参数、返回值规则,以及丰富多样的应用场景,并给出相应的注意事项。

2025-03-15 13:48:31 1082

原创 Hive SQL 精进系列:REGEXP_REPLACE 函数的用法

字符串处理是数据处理中的常见需求,Hive SQL 为此提供了多种函数,其中 `REGEXP_REPLACE` 函数凭借其基于正则表达式的替换能力,在处理复杂字符串替换任务时发挥着关键作用。本文将详细介绍 `REGEXP_REPLACE` 函数的语法、应用场景,同时对比它与 `REPLACE` 函数和 `REGEXP` 函数的差异。

2025-03-15 13:31:40 1310

原创 Hive SQL 精进系列:REGEXP_COUNT 函数的用法

`REGEXP_COUNT` 函数是一个强大的正则表达式相关函数,它能够帮助我们统计字符串中匹配特定正则表达式模式的子字符串的数量。本文将详细介绍 `REGEXP_COUNT` 函数的基本语法、应用场景、使用示例以及一些注意事项。

2025-03-15 13:27:49 786

原创 Hive SQL 精进系列: 集合函数 COLLECT_SET 与 COLLECT_LIST

在 Hive SQL 的数据处理领域,集合函数是一类强大且实用的工具。其中,`COLLECT_SET` 和 `COLLECT_LIST` 函数在处理分组数据时尤为重要。它们能够将分组内的某列值收集到一个集合中,为后续的数据聚合和分析提供便利。本文将详细介绍这两个集合函数的基本概念、语法、应用场景以及它们之间的区别。

2025-03-15 13:20:53 909

原创 Hive SQL 精进系列:REGEXP 函数的用法

当处理复杂的文本数据时,常常需要对字符串进行模式匹配和筛选,Hive SQL 中的 `REGEXP` 函数就提供了这样的功能。它基于正则表达式实现字符串的模式匹配,能高效地从海量文本数据中提取所需信息。本文将详细介绍 `REGEXP` 函数的基本概念、语法、常见应用场景及高级用法。

2025-03-15 13:17:20 1339

原创 Hive SQL 精进系列:SUBSTR 函数的多样用法

`SUBSTR` 函数是 Hive SQL 中一个用于字符串截取的重要函数,在处理文本数据时发挥着关键作用。本文将全面且深入地介绍 Hive SQL 中 `SUBSTR` 函数的基本语法、常见应用场景以及一些高级用法。

2025-03-15 12:44:51 1725

原创 Hive SQL 精进系列: IF 函数的强大功能与高级应用

`IF` 函数作为 Hive SQL 中一个基础且实用的条件函数,在日常的数据处理任务中发挥着重要作用。本文将全面介绍 Hive SQL 中 `IF` 函数的基本语法、常见应用场景以及高级用法。

2025-03-15 12:38:52 894

原创 FastJSON与Java序列化:数据处理与转换的关键技术

FastJSON用于Java对象与JSON数据之间的序列化和反序列化,能高效处理JSON格式数据,广泛应用于Web开发、数据存储与接口调用等场景。而Java序列化机制则是将Java对象转化为字节序列以便传输和存储,在网络通信、数据持久化等方面不可或缺。接下来,我们将深入探讨这两者的详细内容。

2025-03-13 00:25:47 662

原创 深入探索 Java Stream

Stream API 为 Java 集合框架带来了一种全新的、高效且简洁的数据处理方式,极大地提升了代码的可读性与执行效率。它以函数式编程风格为基础,允许开发者以声明式的方式处理数据,将复杂的数据处理逻辑简化为一系列流畅的操作

2025-03-13 00:20:41 854

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

2025-02-08

树模型论文汇总.zip

xgboost、lightgbm、catboost论文汇总。 XGBoost[1]是2014年2月诞生的专注于梯度提升算法的机器学习函数库,此函数库因其优良的学习效果以及高效的训练速度而获得广泛的关注。仅在2015年,在Kaggle[2]竞赛中获胜的29个算法中,有17个使用了XGBoost库,而作为对比,近年大热的深度神经网络方法,这一数据则是11个。在KDDCup 2015 [3]竞赛中,排名前十的队伍全部使用了XGBoost库。XGBoost不仅学习效果很好,而且速度也很快,相比梯度提升算法在另一个常用机器学习库scikit-learn中的实现,XGBoost的性能经常有十倍以上的提升。在KDD会议上,XGBoost的作者陈天奇将这一库函数所涉及到的理论推导和加速方法整理为论文发表出来[4],本文据此对其原理做简单的介绍。尽管这是一个机器学习方面的函数库,但其中有大量通用的加速方法,也值得我们学习。

2019-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除