futurewq-CSDN博客

原创不错的资源

1.约束优化方法https://www.cnblogs.com/ooon/p/5721119.html2.矩阵奇异值分解https://blog.csdn.net/u011251945/article/details/813626423.线性代数的本质https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=224748...

2019-09-16 17:15:53 170

原创 GBDT精讲

这是boosting,但不是adaboost.

2023-06-30 11:38:51 257 1

对这个公式进行理解，首先ℎ�(�)表示将样本预测为正例的概率，当y=1(正例)时，我们希望 ℎ�(�) 越大越好，那就是 ��(ℎ�(�)) 越大越好，那么就是 −��(ℎ�(�)) 越小越好，那也就是最小化损失函数的问题；逻辑回归的模型引入了sigmoid函数映射，是非线性模型，但本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。综上，逻辑回归本质上是线性回归模型，关于系数是线性函数，分离平面无论是线性还是非线性的，逻辑回归其实都可以进行分类。

2023-06-29 17:07:42 647

原创机器学习评估与度量指标

这里的内容主要包括：性能度量、比较检验和偏差与方差。在上一篇文章中，我们解决了评估学习器泛化性能的方法，即用测试集的"测试误差"作为"泛化误差"的近似，当我们划分好训练/测试集后，那如何计算"测试误差"呢？这就是性能度量，例如:均方差，错误率等，即"测试误差"的一个评价标准。有了评估方法和性能度量，就可以计算出学习器的"测试误差"，但由于"测试误差"受到很多因素的影响，例如:算法随机性或测试集本身的选择，那如何对两个或多个学习器的性能结果做比较呢？这就是比较检验。

2023-06-28 09:49:19 423

原创决策树精讲

预剪枝处理使得决策树的很多分支被剪掉，因此大大降低了训练时间开销，同时降低了过拟合的风险，但另一方面由于剪枝同时剪掉了当前节点后续子节点的分支，因此预剪枝”贪心“的本质阻止了分支的展开，在一定程度上带来了欠拟合的风险。上面我们已经提到了，ID3算法存在一个问题，就是偏向于取值数目较多的属性，例如：如果存在一个唯一标识，这样样本集D将会被划分为|D|个分支，每个分支只有一个样本，这样划分后的信息熵为零，十分纯净，但是对分类毫无用处。每个叶子节点都对应一个样本的小区域，对应的y值就是这些样本的目标值的均值。

2023-06-27 09:59:44 842

原创 PCA(主成分分析)

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。数据降维是无监督学习的另外一个常见问题。

2023-06-26 09:57:11 642

原创对比学习初认识

根据上面这个图，来介绍下怎么做一个抽象的对比学习系统。以一个图像为例子，通过自动构造正例或负例，形成图片的两个view，通过encoder把它们编码，即将输入映射到一个投影空间里。对比学习的优化目标是:希望投影空间里两个正例的距离比较近，如果是负例，则希望它们的距离远一些。我们通过定义损失函数来达到这个目标。一般对比学习系统用的是infoNCE这个Loss，它是对比学习里面最常见的一个Loss。

2023-06-21 17:58:54 520

原创 Attention is all you need

自注意力的巧妙之处就在于这里，每个词向量两两之间内积，就能得到当前词与其他词的相似关系，有了相似关系，再通过softmax映射出权重，再把这个权重反乘到各自词语的embedding身上，再加权求和，就相当于融于了其他词的相关信息。这里还有一个问题是QK^T除以了sqrt(dk)的操作，这个原因具体看参考博客的内容(

2023-06-20 23:08:14 1146

原创 DSIN(Deep Session Interest Network)详解

DIEN存在一个问题，就是只关注了如何去改进网络，而忽略了用户历史行为序列本身的特点，我们仔细去想，用户过去可能有很多历史点击行为，比如[]item3,item45,item69,item21,...]，这个按照用户的点击时间排好序了，既然我们说用户的兴趣是非常广泛且多变的，那么这一大串序列的商品中，往往出现的一个规律就是再。接下来就是不同的会话都走这样的一个Transformer网络，就会得到一个K*embed_dim的矩阵，代表的是某个用户在K个会话里面的兴趣信息，这个就是会话兴趣提取层的结果了。

2023-06-20 13:57:46 357

原创 MMOE(Multi-gate Mixture-of-Experts)

即底层不是使用共享的一个shared bottom,而是有多个tower，称为多个专家，而是有多个tower，称为多个专家，然后往往再有一个gating netwokrs在多任务学习时，给不同的tower分配不同的权重，那么这样对于不同的任务，可以允许使用底层不同的专家组合去进行预测，相较于上面所有任务共享底层，这个方式显得更加灵活。这种方法目前用的也有，比如美团的猜你喜欢，知乎推荐的ranking等，这种方法最大的优势是task越多，单任务更加不可能过拟合，即可以减少任务之间过拟合的风险。

2023-06-19 09:59:48 481

原创 Bert模型精讲

Autoregressice语言模型：指的是依据前面(或后面)出现的单词来预测当前时刻的单词，代表有ElMo, GPT等。Autoencoder语言模型：通过上下文信息来预测被mask的单词，代表有BERT,Word2vec(CBOW)。BERT模型作为当今NLP应用大杀器，具有易于使用、稳定性强等诸多优点。本文深入了解BERT的原理，如何做到BERT的预训练改进以及Fine-tuning中所涉及到的常见改进策略。另外，本文也讲述了BERT模型在实际场景中的应用及在实践中的一些tricks.

2023-06-16 13:52:59 1358

原创 YouTubeDNN

这个youTubeDNN主要是工程导向，对于推荐方向的业界人士真的是必须读的一篇文章。它从召回到排序整个流程都做了描述，真正是在工业界应用的经典介绍。作者首先说了在工业上YouTube视频推荐系统主要面临的三大挑战：1.Scale(规模)：视频数量非常庞大，大规模数据下需要分布时学习算法以及高效的线上服务系统。文中体现这一点的是召回模型线下训练的时候，采用了负采样的思路，线上服务的时候，采用了hash映射，然后近邻检索的方式来满足实时性的需求。

2023-06-15 14:19:28 593

原创 S^3-Rec:self-supervised learning for sequential recommendation with mutual information maximization

传统的基于深度学习的序列推荐往往基于物品预测损失来训练模型参数或者数据特征。但是这样的损失函数受限于数据稀疏问题。我们提出的S3-rec模型是利用内在的数据相关性来获得自监督信息，并通过预训练方法来增强数据表示，从而提高序列推荐。在我们的任务中，我们设计了四个辅助自监督目标通过互信息最大化(mutual information maximization)原则来学习attribute、item、subsequence和sequence之间的联系。最终在6个数据集上进行的大量实验证明本文方法的先进性；

2023-06-15 11:24:17 411 2

原创社招准备和面试题

重点掌握了自己认为比较重要的深度学习模型，transformer，bert，这些都是必须要掌握的，包括每个模型里面涉及的细节，比如transformer里面的注意力分数为啥要除以sqrt(d_k)，为啥用的是LayerNormalization，不用BatchNormalization。另外就是基于自己的简历，简历项目里面提到的技术都要熟悉。题目一定要多刷，刷的多了，真的能提高不少，我这次遇到了很多之前自己刷到的，有些是原题，有些是稍微的变体，但也不难，印象最深刻的是遇到了一个hard的变体，就觉得绝。

2023-06-15 10:29:38 1691

原创金(铁)三银(铜)四社招回忆录

第二个风控方向，薪资相对比较低，工作内容不错，是自己犹豫的一家。第五家，物流方向的，给的薪资也是最高的，真的本来很想去的，薪资实在是诱惑人，而且给我流程走的很快，直属leader和大leader都很认可我，hr也在给我争取尽快走流程，去挽留我，但是请教了一些前辈以及自己静下心来想了想，还是觉得先选择一个好的方向和好的平台，这样以后也许能获得更多，主要还有一个原因就是前面的offer发了比较早，这家offer还得在等几天，前面offer实在是等不起了，而且也天天催我，就鉴于这些原因，忍痛放弃了。

2023-06-15 10:20:35 79

原创随机森林！

体现(与传统决策树的差异):对基决策树的每个节点，先从该节点的属性集合中随机选择包含K(log2(d))个属性的子集，然后再从这个子集中选择一个最优的属性用于划分。同时，由于树节点分裂时，随机选取特征，进一步降低了模型之间的相关性。最后，对这N棵树的(err_oob2-err_oob1)求和取平均，如果值变化很大(即err_oob2上升)，说明这个特征的重要性很高。(1)假设有n个独立同分布的模型，每个模型的方差均为σ^2,均值为μ，那么多模型平均后的方差仅为单模型的1/n，偏差与单模型的偏差近似。

2023-03-17 17:39:26 698

原创集成方法！

集成方法

2023-03-17 17:02:22 682

原创决策树基础知识点解读

决策树

2023-03-17 16:04:43 595

原创逻辑回归全方位认识

直观的，根据极大似然法将这些条件概率连乘取对数取反得到逻辑回归的损失函数，意义在于希望能够最大化这些样本出现的概率，极大似然本身的假设就是真实存在的样本出现的概率最大，而相对应的参数就是能够使得这些数据出现概率最大的参数，取反则变成希望真实存在的样本出现的概率的负数最小(也就是我们上面的损失函数的公式)否则量纲大的特征的梯度更新量大，量纲校的特征的梯度更新量小，特征之间的收敛速度差别大导致整体的收敛速度慢(因为更新快的特征要等更新慢的特征的权重系数收敛)其次是特征多了，本身就会增大训练的时间。

2023-03-15 15:57:47 453