Pillars-Creation-CSDN博客

原创 vqvae简单实战，利用vqvae来提升模型向量表达

在cv里码本对应的encoder是卷积完的三维机构，如果我们是优化ID向量只有一维，需要做个转换把一维变成二维，这里可以用卷积，也可以把向量两两相乘变成二维结构，这样的好处是一方面方便我们把每一行当作一个向量和codebook求对应，另一方面两两相乘也可以理解为一种特征交叉，提升了向量的表达。在传统的 VAE 中，先验分布通常是一个固定的分布，例如标准正态分布。在VQ-VAE中，编码器将输入数据映射到一个离散的隐藏，将编码器的输出与一个称为码本（codebook）的离散向量集进行匹配来实现的。

2023-10-15 23:29:18 1980

原创大模型 Dalle2 学习三部曲（三）Hierarchical Text-ConditionalImage Generation with CLIP Latents 论文学习

上篇文章我们说latency diffusion 把图像和文本先压缩到隐空间再进行diffusion，大大提升了diffusion过程的效率，其实我们想想diffusion过程其实我们也完全没必要一直扩散到纯噪声再还原为图像，我们只需要扩散到适合我们生成图像的时候就可以。这里还有个问题，那么在prior训练过程文本隐空间到图像隐空间对应关系从哪儿来，论文又很巧妙的想到了clip模型，模型里的文本隐空间到图像隐空间就是现成的样本对。4）为了提高上采样器的鲁棒性，在训练过程中我对调节图像进行了轻微的损坏。

2023-09-11 23:54:13 380 1

原创大模型 Dalle2 学习三部曲（一）Latent Diffusion Models学习

引言大获成功，但是它的短板也很明显，需要大量的计算资源，并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进，无疑Latent Diffusion Models（潜在扩散模型，LDMs）是比较成功的一篇，那就来学习一下LDMS是怎么做的吧论文贡献1，与基于变换的方法相比，论文的方法在处理更高维度数据，可以高效地应用于高分辨率图像的合成，具体措施如下）使用潜在空间进行训练：作者在隐空间而不是像素空间上训练扩散模型。

2023-09-04 22:25:49 1596 1

原创大模型 Dalle2 学习三部曲（二）clip学习

clip遇到的另一个问题是，在clip的预训练数据集中，图像配对的文本通常不只是一个单词，而是一个描述图像的完整句子。在预训练之后，用于对下游任务的零样本迁移。在这项工作中，clip弥合了过去模型数据量不足的差距，通过利用互联网上大量可用的这种形式的数据，创建了一个包含4亿（图像，文本）对的新数据集。clip论文比较长48页，但是clip模型本身又比较简单，效果又奇好，正所谓大道至简，我们来学习一下clip论文中的一些技巧，可以让我们快速加深对clip模型的理解，以及大模型对推荐带来革命性的变化。

2023-08-31 15:57:17 854 1

原创大语言模型-RLHF(七)-PPO实践（Proximal Policy Optimization）原理&实现&代码逐行注释

这里涉及到两个问题，一个是如何扩展Context长度，一个是如何让llm模型只在指定Context内回答问题。今天我们ppo优化主要解决llm模型只在指定Context内回答问题。

2023-08-15 22:56:26 1030

原创大语言模型-RLHF(五)-PPO（Proximal Policy Optimization）原理&实现&代码逐行注释-论文导读

从open AI 的论文可以看到，大语言模型的优化，分下面三个步骤，SFT，RM，PPO，我们跟随大神的步伐，来学习一下这三个步骤和代码实现，本章介绍PPO论文。

2023-08-05 23:27:55 1018

原创大语言模型-RLHF(六)-PPO（Proximal Policy Optimization）原理&实现&代码逐行注释

从open AI 的论文可以看到，大语言模型的优化，分下面三个步骤，SFT，RM，PPO，我们跟随大神的步伐，来学习一下这三个步骤和代码实现，本章介绍PPO代码实现。

2023-08-05 15:46:16 2219 1

原创大语言模型-RLHF(四)-PPO（Proximal Policy Optimization）原理&实现&代码逐行注释

要搞明白PPO首先需要搞明白下面几个概念。策略梯度（Policy Gradient），On Policy Off Policy，重要性采样（Importance Sampling），自适应的KL散度惩罚（Adaptive KL Penalty Coefficient），约束问题（Clipped Surrogate Objective）

2023-08-01 20:01:44 1894 2

原创大语言模型-RLHF(二)——LoRA实现&代码逐行讲解

为方便学习，对ChatGlm的代码做了逐行解读，这里主要是lora方法使用，里面核心的部分如数据的解析，loss的定义，lable制作，lora调用的框架流程等。将输入转化为我们想要的input和lable格式，注意这里输入的特征是已经转化为id的特征，根据我们自己的数据和需要定义，重写 compute_loss 方法，计算模型的损失。（1）将promot和input，target转化为我们想要的input格式。整体代码如下，文件获取可以参考git。1，数据处理，两个功能。3，loss计算定义。

2023-06-14 14:36:25 6880 3

原创大语言模型 RLHF(一)——ChatGLM代码逐行解读

为方便学习，对ChatGlm的代码做了逐行解读，这里主要是main方法，里面核心的部分如数据的解析，模型推理训练的框架流程。后续会针对ChatGLM核心优化代码做个解读，

2023-06-07 17:50:38 6137

原创 VisualGLM训练缺失latest文件问题解决

类型的模型是 Hugging Face Transformers 库中的一个通用模型类型，用于加载任意预训练模型。该模型类型可以自动检测预训练模型的类型，并返回相应类型的模型对象。类型的对象，该对象包含了预训练模型的参数和 fine-tune 的相关参数。再查看源码，会看到在from_pretrained这个方法里，会用到它生成的路径，以及路径下的文件，无法绕开。我们在其它finetune的文件夹里找到这个文件，打开后可以看到是，这个文件包含的是fintune迭代信息。既然这种调用model的方式不行，

2023-06-03 18:15:41 957

原创大语言模型论文阅读—Title: GLM: General Language Model Pretraining with Autoregressive Blank Infilling

b. 创新，性能和工作负载：GLM与BERT、T5和GPT等现有的预训练框架相比，使用相同的模型尺寸和数据，在各种自然语言理解、条件和无条件生成任务中表现出卓越的性能。b. 历史发展：传统的语言模型使用从左到右的解码方式，而GLM的预训练目标则是训练模型预测句子中缺失的单词，从而能更好地预测未来输入的单词序列。a. 研究的理论基础：GLM使用自回归空格填充目标来预训练语言模型，通过变化不同长度和数量的缺失跨度，可以完成有条件或无条件的文本生成预训练。c. 过去的方法：传统的语言模型使用从左到右的解码方式。

2023-05-31 22:55:07 449 1

原创从一致性/debias角度考虑推荐优化问题（排序部分二《多场景一致性》）

1，目标差异首选我们很容易想到的就是多任务模型，不同频道共享特征和expert，有自己独立目标。但是简单融合往往导致严重的负迁移，融合模型效果比单场景模型效果更差。为了解决这些问题，我们针对模型中不一致的地方一一入手：2，特征不一致，这里很容易想到的解法是拆分不同特征，分成共有特征和独有特征，然后如果是多任务模型再分布让不同特征走不通不同expert。如下图不同场景有自身独立的expert，和公共的expert。结合一个场景个性化的gate来控制不同expert的特征输入。以及不同tower的ex

2023-03-22 21:46:21 404

原创《伪样本&新场景样本挖掘和适应》

工作中时不时就会有需求，新介质需要添加，或者要另起一个新版本。比如信息流推荐里需要添加微博，小视频，结构体，需要做精英版，极速版等等。而且每次新场景新介质和老场景老介质之间特征有很大差异，不仅独有特征存在差异，共有特征也存在分布的巨大差异。导致老模型在新介质新场景上效果比较差。这常常困扰着我们，因为新介质没有推全，模型没见过所以推荐效果不好，推荐效果导致我们迟迟又上不了线，反过来影响着模型效果提升，这就成了一个死循环。我们怎么才能更好解决这个问题呢？介绍一些，之前我们遇到这些情况的解法吧，欢迎拍砖。

2023-03-21 21:10:59 490

原创从一致性/debias角度考虑推荐优化问题（排序部分四《参数的一致性》）

在排序工作中，我们也经常遇到不同的一致性需求，关于排序一致性，我们往往需要考虑几个方面：《样本的差异》，《特征的差异》，《模型参数差异》，《目标差异》，《场景融合的差异》。当然他们之间并不是完全割裂的，譬如样本的差异，往往也涉及到模型参数的调整。这里为了便于说明，做了这么几个简单区分。

2023-03-20 21:38:45 612

原创从一致性/debias角度考虑推荐优化问题（排序部分一《样本的一致性》）

前言：最近和业界同事交流，大家都发现搜广推做到一定程度优化越来越难，一招就能普遍提升的大招越来越难找，推荐何去何从？上期写了个冷启动的一致性，从中得到启发，其实推荐过程中，也可以借鉴一下这个思路，从各个环节去考虑我们系统中的一致性，还是有不少优化点。现在推荐已经过了那个蛮荒的年代，既然已经很难仅通过某个模块环节就找到能整体提升的优化点，我们可以扫视一下我们系统中的一致性，是否在过去的优化中对某些模块，领域存在着忽略，缺少整体的一致性的考虑，还是有不少优化点，可以继续提升我们推荐优化的效果。

2023-02-19 20:57:31 796

原创从一致性/debias角度考虑推荐冷启动&长尾推荐问题（二）

在物品冷启动，打分的时候，一个用户往往对应多篇文章，所以item 冷启动的一致性，一般强调的是信息补充和使emb不受歧视。用户冷启动，user emb对所有文章是公平的，user emb被歧视的问题影响相对弱，所以用户冷启动更要强调的是用户emb从相同类别用户中获取到用户的公共兴趣增益。在推荐系统中user&item emb往往是最重要的特征之一，在冷启动和长尾优化的工作中，往往也是优化的重点，相当一部分工作是围绕着emb优化展开，所以这里单独开了一章。主要思路在于冷启内容emb和高活emb的一致性。

2023-02-17 21:12:12 1554 2

原创从一致性/debias角度考虑推荐冷启动&长尾推荐问题（一）

目前中长尾推荐的方法有很多，主流的方法有几类比如:1)在没有项目ID嵌入的情况下提高推荐模型的鲁棒性，2)利用有限的交互数据提高学习效率，如使用元学习方法;3)利用物品侧面信息，便于物品ID嵌入的初始化，4）辅助数据引入，包括知识图谱网络，跨领域转换等等在优化的过程中，结合自己的一些工作，感觉是不是也可以从一致性的角度的来考虑这个问题，这样的好处是有个统一的切分方式，那么看到哪块还不一致，是不是就可以作为一个未来的优化点？

2023-02-17 20:55:28 1542

原创深度学习Attention机制在短文本分类上的应用——qjzcy的博客

平常我们对分类的判断也是基于标题中的某些字，或者某些词性。比如《姚明篮球打的怎样》应该判别为体育，这时候“姚明”，“篮球”应该算对我们比较重要的词汇。词性我们关注点在“人名”和“名词”上面，深度学习的attention机制刚好符合这个特点。我们能不能利用attention机制来做分类呢，并且让注意力集中在我们期望的词上呢？先贴个结果， output是机器跑的分类结果，lable是人工打的分类结果。

2017-04-17 20:48:31 11896 2

原创利用lstm模型实现短文本主题相似——qjzcy的博客

利用lstm模型实现短文本主题相似——qjzcy的博客目录：一、Rnn模型结构二、LSTM模型的Topic应用方法三、实验结果对比一、Rnn模型结构：这里是rnn模型的一个结构图，如图1 图1 Rnn网络能够把之前输入的信息往后传播，合适处理时序的数据，或者需要结合前后信息的数据。 Lstm是rnn的一个升级版本，本质上能更好的保存之前多级输入样本的特征二、LSTM

2016-08-21 20:54:37 17591 8

原创语义相关app搜索(二) 论短文本相似——qjzcy的博客

语义相关app搜索(二) 论短文本相似——qjzcy的博客App相似，其实是短文本相似的一种，如何在词和文本重合之外找到两个短语的相似呢？这里对我工作中用到短文本相似方法做个归纳，大概有这么几种方法 1、 Session相关法 2、句子向量法 3、多级的跳转法 4、算法模型法分别举例子吧一、Session相关法思路是用户在一个会话中替换的词基本会有某些语义相关，那么我们

2016-08-21 20:22:04 3936

原创梯度下降和牛顿迭代——qjzcy的博客

梯度下降和牛顿迭代数值优化会经常遇到。网上搜了搜发现各大神已经总结的非常完美了。自己就手动推一遍牛顿迭代的公式好了，当作复习。梯度下降和牛顿迭代主要做的事情就两步 1、找到搜索的方向， 2、迭代的步长引子：我们很多问题最后都会归结到要寻找一个凸函数的极值点，比如：那么怎么才能找到极值点？我们先拿一个一维的曲线来举例，怎么找到极值点首先我们所学的高等数学告诉我们导数为0

2016-07-18 22:38:28 6074

原创 BP网络公式推导及理解——qjzcy的博客

深度学习离不开最基本的BP神经网络，这里把公式推一遍神经网络的核心在BP网络，其主要分为正向传播和方向传播两个过程。正向传播过程公式见图，14~17，从输入xi得到输出yo 反向传播过程，反向传播主要是为了调整各传播层的W值公式推导见图18~26 迭代过程 1、我们希望知道在每一个w向哪个方向调整才能减少误差，于是我们根据误差对w求偏导，偏导数的方向就是我们要调整的方向

2016-07-15 18:23:42 1877

原创语义相关app搜索(三)——qjzcy的博客

之前做的一款基于语义的app搜索，当时公司希望做一款不仅仅能根据一般文本重合，而且能通过语义上的相关找到更好的推荐app，这里分享一下开发的过程和心得 —————————————————————————————————————————————————————————————————————————— 目录：一、基础特征的选择二、特征的组合和特征的离散化三、训练样本的获取四、排序样

2016-07-13 18:59:33 1371

原创深度学习的多gpu并行尝试——qjzcy的博客

深度学习的多gpu并行尝试——工作学习中的一点体会目录一、深度学习并行常用方法二、代码解析三、实验结果四、一些细节（一）并行常用方法：一般有两种方法，一种是模型并行，另一种是数据并行。模型并行：由于bp网络的过程是个串行的过程，所以模型并行主要用在一个gpu的显存不能把所有的图结构都保存下来，于是我们把一个完整的网络切分成不同块放在不同gpu上执行，每个gp

2016-07-12 22:21:19 9059

原创深度学习在短文本相似中的应用（Sentence2Vector）——qjzcy的博客

我们的工作中经常遇到如何求两个句子的相似，比如如何判断搜索query和广告query的相似，搜索query和app的相似，再比如短文本相似的问答系统等等。有什么好的方法呢，这里是个人的一点总结吧。目录：一、先贴结果二、短文本相似常用的方法三、主题模型的应用四、深度学习的模型搭建（一）老样子先贴结果吧，样本是处理后的搜索query和广告点击query，准确率在95%左右

2016-07-11 18:07:20 22480 2

原创 MCMC（马尔科夫蒙特卡洛）——qjzcy的博客

MCMC（马尔科夫蒙特卡洛）导读：一、开开脑洞二、平稳细致条件三、吉布斯抽样————————————————————————我特别喜欢这个算法，常常让我脑洞大开。在这里胡扯一下，大家见笑这个算法大致的描述为：无论初始状态如何，经过有限的迭代后，会趋于稳定，稳定后的状态分布只和转换矩阵相关。这里面有三个重点： 1、和初始状态无关 2、满足条件，就一定会趋

2016-06-23 17:12:25 9411

原创基于leaning to rank的广告重点词——qjzcy的博客

用leaning to rank做广告重点词——工作学习中的一点体会最近需要一个query中的重点词，这里分享一下开发的过程和心得导读：一、先贴结果二、我们可以有那些特征三、leaning to rank四、怎么改进？一、先贴结果第一行是分词后的query 第二行是重点词排序的结果自我感觉基本还算过得去吧二、我们可以有那些特征 1、词的tfidf 2、词在用户历史点击ses

2016-06-22 21:17:31 3883

原创熵的应用（一）——qjzcy的博客

熵（一）——工作学习中的一点体会最近在做一个广告重点词的项目，用到了最大熵做特征，感觉这个概念经常被用到，比如最大熵隐马，条件随机场，都有涉及，这里总结一下。目录：一、含义二、公式三、公式理解四、小应用五、最大熵模型一、含义熵是一个算法经常用到的概念，通俗来说就是越平均熵越大，并且世界一定是趋向于熵最大。比如冰火在一起，一定是趋于平均温度。有钱人和没钱人在一起？为什么

2016-06-21 16:52:39 4567 1

原创条件随机场（CRF）——qjzcy的博客

导读：一、非线性规划二、求熵值最大化三、 2个限制条件四、拉格朗日方程五、对偶表达式六、数值优化条件随机场一、非线性规划其实整个公式基本上就是非线性规划的经典流程，有兴趣大家可以看看非线性规划，有助于理解，没有直接跳过也可以，非线性规划的流程图我帮大家拉到这儿，大家可以对照着看看对应流程是怎么走的非线性规划： http://blog.c

2016-06-21 16:16:13 3793

原创非线性规划——qjzcy的博客

非线性规划流程总图：定义：如果目标函数或者约束条件中至少有一个是非线性函数时的最优化问题叫非线性规划问题。比如目标函数是 f(x)=kx+b x>9 线性规划 f(x)=xlogx x>9 非线性规划线性规划高中内容就不说了非线性规划非线性规

2016-06-21 15:32:04 12458

原创 NDCG指标——qjzcy的博客

工作学习中的一点体会——NDCG 指标NDCG（Normalized discounted cumulative gain）值是我们经常用到的一个rank指标，这里写一下我对NDCG值的一点理解 ————————————————————————————————————— 目录：一、如何判断一个rank结果的好坏二、公式三、公式的理解 ————————————————————————

2016-05-26 10:57:38 5235

原创语义相关app搜索（一）——qjzcy的博客

工作学习中的一点体会——语义相关app搜索

2016-05-25 19:14:20 1493

原创隐马尔科夫模型（HMM)——qjzcy的博客

隐马尔科夫模型的一点学习总结

2016-05-25 18:32:47 1390

qjzcy的博客