bugmaker.-CSDN博客

原创大语言模型的常用微调方法

在深人介绍分词器之前，我们需要先回答一个重要问题：为何需要对文本进行分词?词在文本中是最小的独立单元，携带了一定的造又信息。在模型训练过程中，采用分词能够有效降低文本数据的维度，进而提高训练效率。分词器针对不同的粒度也有不同的分词方式，如字符级分词、单词级分词、子词级分词等。例如针对以下文本：Let’s go to work tomorrow!1)字符级分词：按照单字符进行分词，就是以char 为最小粒度。

2024-12-17 21:32:02 1410

原创 PLE详解

在做多目标建模的时候，摆在我们面前的主要在于各个任务的损失函数如何权衡baseline最简单的做法就是人工经验给每个任务分配一个权重系数，也就是其中n代表任务个数优点：简单，易懂缺点：对人工经验要求较高，需要多次人工尝试调参才能达到最佳效果这样做主要有这么几个问题不同任务的Loss差异非常大，如果某个任务的Loss比其他几个任务的Loss大一个量级，其实多任务学习就演变成单任务学习不同任务的梯度变化不同，有些任务参数更新快，有些任务参数更新慢。

2023-04-11 20:15:47 2907

原创双塔模型实践

本文是我和双塔模型死磕了6个月之后的心得体会。如前文所述，双塔分离，既是保障线上快速serving、以适应召回+粗排场景的优点，也是不能使用交叉特征与结构、导致两侧信息交叉过晚、制约模型表达能力的最大缺点。user&item两侧信息交叉得太晚，等到最终能够通过dot或cosine交叉的时候，user & item embedding已经高度浓缩，一些细粒度的信息已经在塔中被损耗，永远失去了与对侧信息交叉的机会。为了克服这一缺点，业界同仁设计出许多改进方案。

2023-04-11 20:01:05 2098

原创 MMOE——多任务学习模型

近年来，深度神经网络模型已成功应用于许多现实世界的大规模应用，如推荐系统。这样的推荐系统通常需要同时优化多个目标。例如，在向用户推荐电影时，我们可能希望用户不仅购买并观看电影，还希望他们在观看后喜欢上电影，这样他们就会回来看更多的电影。也就是说，我们可以创建模型来同时预测用户的购买和他们的评级。

2023-04-05 17:05:59 2326

原创支持向量机（SVM）

算法简介支持向量机(SVM)是种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机:支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方法包含构建由简至繁的模型:线性可分支持向量机、线性支持向量机以及非线性支持向量机。简单模型是复杂模型的基础，也是复杂模型的特殊情况。当训练数据线

2022-01-17 16:42:49 30583 1

原创 0-1背包的四种解法

有句老话说得好，学会了0-1背包就学会了算法。本篇博客就来盘点一下0-1背包的4中常见解法。动态规划法既然要用动态规划法解0-1背包问题，就要能满足动态规划的两个特性：具有重叠子问题。具有最优子结构性。这两点应该很容易就可以看出，这里就不做过多赘述了。直接来看关键，之前说过，动态规划的本质就是填表，而解动态规划问题的关键是找出动态转移方程，一旦找出动态转移方程，就可以用方程把整个表都填满了。这里直接给出动态转移方程V(i, j)表示在前i(1≤i≤n)个物品中能够装入容量为j（1≤j≤C

2021-11-27 22:11:26 15451 4

原创 MP中的常用注解

TableId:专门给主键使用进行映射。

2023-06-08 16:47:42 505

原创 myBatis-plus之CRUD

根据 Wrapper 条件，查询全部记录。根据 Wrapper 条件，查询全部记录（并翻页）根据 entity 条件，查询全部记录（并翻页）根据 whereEntity 条件，更新记录。根据 Wrapper 条件，查询全部记录。根据 Wrapper 条件，查询总记录数。根据 columnMap 条件，删除记录。根据 entity 条件，查询一条记录。根据 entity 条件，查询全部记录。查询（根据 columnMap 条件）根据 entity 条件，删除记录。查询（根据ID 批量查询）

2023-06-07 17:22:13 1422

原创 MyBatis

注：我出的答：虽然 MyBatis 解析 xml 映射文件是按照顺序解析的，但是，被引用的 B 标签依然可以定义在任何地方，MyBatis 都可以正确识别。原理是，MyBatis 解析 A 标签，发现 A 标签引用了 B 标签，但是 B 标签尚未解析到，尚不存在，此时，MyBatis 会将 A 标签标记为未解析状态，然后继续解析余下的标签，包含 B 标签，待所有标签解析完毕，MyBatis 会重新解析那些被标记为未解析的标签，此时再解析 A 标签时，B 标签已经存在，A 标签也就可以正常解析完成了。

2023-05-22 21:12:54 563

原创 springMVC

MVC 是模型(Model)、视图(View)、控制器(Controller)的简写，其核心思想是通过将业务逻辑、数据、显示分离来组织代码。网上有很多人说 MVC 不是设计模式，只是软件设计规范，我个人更倾向于 MVC 同样是众多设计模式中的一种。Spring MVC 是当前最优秀的 MVC 框架。相比于 Struts2 ， Spring MVC 使用更加简单和方便，开发效率更高，并且 Spring MVC 运行速度更快。

2023-05-21 19:15:24 758

原创 JAVA IO 模型详解

I/O（Input/Outpu）即输入／输出。从计算机结构的视角来看的话， I/O 描述了计算机系统与外部设备之间通信的过程。从应用程序的视角来看的话，我们的应用程序对操作系统的内核发起 IO 调用（系统调用），操作系统负责的内核执行具体的 IO 操作。也就是说，我们的应用程序实际上只是发起了 IO 操作的调用而已，具体 IO 的执行是由操作系统的内核来完成的。当应用程序发起 I/O 调用后，会经历两个步骤：（1）内核等待 I/O 设备准备好数据（2）内核将数据从内核空间拷贝到用户空间。BIO

2023-04-28 09:39:15 1120

原创 JAVA基础

Java 中有 8 种基本数据类型，分别为：6 种数字类型： 4 种整数型：byte、short、int、long2 种浮点型：float、double1 种字符类型：char1 种布尔型：boolean。

2023-04-26 21:32:21 1877 1

原创注意力机制在推荐模型中的应用——DIN

DIN 模型的应用场景是阿里最典型的电商广告推荐， DIN 模型本质上是一个点击率预估模型。

2023-04-05 16:43:27 661

原创交互式推荐在美团的实现

交互式推荐是一种互动式实时推荐产品模块，主要通过理解用户需求、以互动的方式进行推荐。交互式推荐由Youtube在2018年提出，主要用于解决推荐系统的延迟和与用户互动偏弱的问题。从2021年下半年开始，美团外卖推荐技术团队在外卖首页Feed上持续进行探索，2022上半年完成全量。具体流程：用户从首页Feed进入商家详情页并退出之后，动态地插入新的推荐内容到用户推荐列表中。其主要优势是根据用户的实时需求动态插入卡片进行反馈，进而增强用户的使用体验。

2023-03-27 14:26:55 1383

原创 GraphSAGE论文精读

我们提出了一个通用的框架，称为GraphSAGE(样本和聚合)，用于归纳节点嵌入。与基于矩阵分解的嵌入方法不同，我们利用节点特征(例如，文本属性、节点概要信息、节点度)来学习一个将不可见节点泛化的嵌入函数。通过在学习算法中引入节点特征，我们同时学习了每个节点的邻域的拓扑结构以及节点特征在邻域中的分布情况。虽然我们关注特征丰富的图(例如，具有文本属性的引文数据，具有功能/分子标记的生物数据)，但我们的方法也可以利用所有图中出现的结构特征(例如，节点度)。因此，我们的算法也可以应用于没有节点特征的图。

2023-03-21 10:44:03 681

原创 Tensorflow常用API

import 相关模块，如 import tensorflow as tf。

2023-02-21 20:24:43 811

原创 GBDT+LR

仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。FFM特征交叉能力有限：虽然 FFM 模型采用引入特征域的方式增强了模型的特征交叉能力，只能做二阶的特征交叉，如果继续提高特征交叉的维度，会不可避免地产生组合爆炸和计算复杂度过高的问题。表达能力不强，无法进行特征交叉，特征筛选等一系列“高级“操作（这些工作都得人工来干，这样就需要一定的经验，否则会走一些弯路），因此可能造成信息的损失。

2023-02-13 13:09:00 414

原创 LS-PLM

LS-PLM是阿里巴巴曾经的主流推荐模型 “大规模分段线性模型”（Large Scale Piece-wise Linear Model,以下简称LS-PLM）。早在2012年，它就是阿里巴巴主流的推荐模型，并在深度学习模型提出之前长时间应用于阿里巴巴的各类广告场景。

2022-12-12 20:03:54 699

原创协同过滤CF

UserCF的核心思想是人以群分，现在我们得到了用户的向量表示，那么计算用户i和用户j的相似度问题，就是计算用户向量i和用户向量y之间的相似度，两个向量之间常用的相似度计算方法有余弦相似度、皮尔逊相关系数、欧氏距离等。以上介绍的协同过滤算法基于用户相似度进行推荐，因此也被称为基于用户的协同过滤（UserCF ）,它符合人们直觉上的“兴趣相似的朋友喜欢的物品，也喜欢”的思想，但从技术的角度，它也存在一些缺点，主要包括以下两点。对相似物品集合中的物品，利用相似度分值进行排序，生成最终的推荐列表。

2022-12-12 18:04:33 557

原创 Linux常用命令总结

（1）用户目录：位于/home/user，称之为用户工作目录；（2）ls：是英文单词list的简写，其功能为列出目录的内容；ls -a 列出隐藏文件，文件中以开头的均为隐藏文件，如：~/.bashrcls -l 列出文件的详细信息ls -R 连同子目录中的内容起列出（3）cd：change dir 改变当前所在路径，使用“cd”命令跳转到相应目录。使用时要确认后面的目标目录是否存在。比如：cd file1；cd file1/file2；cd …（返回上一级目录）；cd（返回根目录）（4）whi

2022-12-05 11:04:26 575

原创 TF-IDF详解

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很

2022-12-05 10:34:56 908

原创 SPARK数据分析

重点回顾今天这一讲，我们主要围绕数据的生命周期，学习了 Spark SQL 在不同数据阶段支持的处理算子，如下图所示图中涉及的算子很多，尽管大部分我们都举例讲过了，但要在短时间之内一下子掌握这么多内容，确实强人所难。不过，你不用担心，今天这一讲，最主要的目的，还是想让你对 Spark SQL 支持的算子有一个整体的把握。至于每个算子具体是用来做什么的，在日后的开发工作中，你可以反复地翻看这一讲，结合实践慢慢地加深印象，这样学习更高效。我也强烈建议你空闲时把官网的。

2022-11-28 20:18:08 2403

原创如何入门spark

第一步，我们需要掌握 Spark 常用的开发 API 与开发算子。毕竟，通过这些 API 与开发算子，我们才能启动并驱使 Spark 的分布式计算引擎。接着，我们必须要深入理解它的工作原理。第三步，我们需要了解并熟悉 Spark 不同的计算子框架（Spark SQL、Spark MLlib 和 Structured Streaming），来应对不同的数据应用场景，比如数据分析、机器学习和流计算。

2022-11-28 16:30:06 1329

原创使用SPARK进行特征工程

在机器学习领域，有一条尽人皆知的“潜规则”：Garbage in，garbage out。它的意思是说，当我们喂给模型的数据是“垃圾”的时候，模型“吐出”的预测结果也是“垃圾”。垃圾是一句玩笑话，实际上，它指的是不完善的特征工程。特征工程不完善的成因有很多，比如数据质量参差不齐、特征字段区分度不高，还有特征选择不到位、不合理，等等。作为初学者，我们必须要牢记一点：特征工程制约着模型效果，它决定了模型效果的上限，也就是“天花板”。而模型调优，仅仅是在不停地逼近这个“天花板”而已。因此，提升模型效果的第一步，就

2022-11-28 15:56:45 2609

原创回溯框架总结

其实回溯算法和我们常说的 DFS 算法非常类似，本质上就是一种暴力穷举算法。回溯算法和 DFS 算法的细微差别是：回溯算法是在遍历「树枝」，DFS 算法是在遍历「节点」，本文就是简单提一下，等你看到后文图论算法基础时就能深刻理解这句话的含义了。废话不多说，直接上回溯算法框架，解决一个回溯问题，实际上就是一个决策树的遍历过程，站在回溯树的一个节点上，你只需要思考 3 个问题：1、路径：也就是已经做出的选择。2、选择列表：也就是你当前可以做的选择。

2022-11-26 21:04:26 804

原创动态规划做题总结

动态规划的本质是填表，自底向上的完成DP数组的构建。难点在于DP数组的定义以及状态转移方程的构建。

2022-11-19 19:14:52 159

原创三种常见的特征选择方法

特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。并且常能听到“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”，由此可见其重要性。

2022-11-15 15:07:53 9015 1

原创 Spark、Filnk简单介绍

作为业界主流的大数据处理利器，Spark 的地位毋庸置疑。所以，今天我先带你了解一下 Spark 的特点，再一起来看怎么用 Spark 处理推荐系统的特征。Spark 是一个分布式计算平台。所谓分布式，指的是计算节点之间不共享内存，需要通过网络通信的方式交换数据。Spark 最典型的应用方式就是建立在大量廉价的计算节点上，这些节点可以是廉价主机，也可以是虚拟的 Docker 容器。理解了 Spark 的基本概念，我们来看看它的架构。

2022-11-12 16:11:05 1049

原创推荐系统的数据流

动辄TB乃至PB级別的训练数据，让推荐系统的数据流必须和大数据处理与存储的基础设施紧密结合，才能完成推荐系统的高效训练和在线预估。大数据平台的发展经历了从批处理到流计算再到全面融合进化的阶段。架构模式的不断发展带来的是数据处理实时性和灵活性的大幅提升。按照发展的先后顺序，大数据平台主要有批处理、流计算、Lambda. Kappa 4种架构模式。

2022-11-12 14:49:52 1211

原创 BERT论文精读

我们引入了一种新的语言表示模型BERT，它使用了来自Transformer的双向编码器。与最近的语言表示模型不同，Bert的设计目的是结合左右双向的信息，使用预训练模型来生成文本的深度双向表示。预训练的Bert模型可以通过一个额外的输出层进行优化，从而为广泛的任务（如问题回答和语言推理）创建最先进的模型，而无需对特定于任务的体系结构进行实质性修改。它在11个自然语言处理任务上获得了最新的结果。

2022-11-07 10:27:09 978

原创 Transformer论文精读

主要的序列转换模型是基于复杂的递归或卷积神经网络，包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的网络结构Transformer,它完全基于注意力机制，完全省去了重复和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上是优越的，同时具有更高的并行性，需要更少的训练时间。

2022-11-07 09:53:32 742

原创 dataframe常用API(python)

数据收集到驱动器中进行计算，就不是分布式并行计算了，而是串行计算，会更慢，所以，除了常看小数据，一般吧建议使用。map方法可以对dataframe数据集中的数据进行逐个操作，他与flatMap的不同之处在于，flatMap是将数据集中的数据作为一个整体去处理，之后再对其中的数据做计算，map则是直接对数据集中的数据做单独处理。这里的重复项指的是两行的数据完全相同。filter方法是一个常用的方法，用条件来过滤数据集，如果想选择某列中大于或小于某数的数据，就可以使用filter方法。

2022-10-18 21:24:24 1374

原创 DataFrame简介

DataFrame实质上是存储在不同节点计算机中的一张关系型数据表。分布式存储最大的好处是：可以让数据在不同的工作节点上并行存储，以便在需要数据的时候并行运算。

2022-10-14 16:12:32 3696

原创十二、集成学习

目前集成学习可以分成Boosting和Bagging两大流派。

2022-10-09 11:25:25 603

原创十、循环神经网络

Seq2Seq模型的核心思想是，通过深度神经网络将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入与解码输出两个环节构成。在经典的实现中，编码器和解码器各由一个循环神经网络构成，既可以选择传统循环神经网络结构，也可以使用长短期记忆模型、门控循环单元等。在Seq2Seq模型中，两个循环神经网络是共同训练的。假想一个复习和考试的场景。我们将学到的历史信息经过了一系列加工整理，形成了所谓的知识体系，这便是编码过程。然后在考试的时候，将高度抽象的知识应用到系列问题中进行求解，这便是解码过程。

2022-10-05 16:54:50 793

空空如也

空空如也