算法有点趣-CSDN博客

原创 ESMM的理解和高频面试问题

ESMM的理解首先，理解部分主要是ESMM要解决什么问题，以及解决方案。弱未度过原文的可以查阅原论文。ESMM的理解——ESMM要解决什么问题Sample Selection Bias (SSB) ：传统的cvr模型是基于点击的样本建模，而线上预估是在全局样本上预估——即所有候选集上。这就出现了线下训练的样本空间（有点击样本）和预估的样本空间（全局样本）有偏差，即样本空间分布不同，这就是所谓的SSB问题。

2023-02-24 10:41:49 709

原创多任务建模之PPNet

多任务ppnet网络结构

2022-10-11 10:32:20 6706

转载为什么不用平方误差（MSE）作为Logistic回归的损失函数？

转载大佬的文章，以便后续再翻阅https://blog.csdn.net/lafengxiaoyu/article/details/109916750

2021-03-18 10:59:46 639

原创如何理解self attention中的QKV矩阵

如何理解self attention中的QKV矩阵疑问：三个矩阵的形状是一样的（embd_dim*embd_dim），作用也都是对输入句子的embedding做线性变换（tf.matmul(Q,input_value),tf.matmul(K,input_value)，tf.matmul(V,input_value)）。那么，为什么需要三个矩阵QKV。对于这个问题，在我第一次看了b站博主视频https://www.bilibili.com/video/BV1P4411F77q（强烈推荐）。就已经

2021-03-15 22:10:56 10187

原创安装cvxopt遇到的坑及解决方案

根据排了一下午坑的总结：1.安装cvxopt之前需要将本地已安装的numpy删除（对numpy的版本是有严格要求的，pip uninstall numpy）。2.安装cvxopt：https://www.lfd.uci.edu/~gohlke/pythonlibs/#cvxopt。根据电脑系统版本选择相应的版本——但是！！！windows不管是32还是64的，都只能装32的。这是个bug。下载到相应目录后，并进入到该目录，使用pip installcvxopt-1.1.9-cp27-cp27m-w.

2020-09-18 16:28:51 2369 2

原创 Batch Normalization 的原理和作用

一.传统的归一化1.计算均值mean和方差var2.归一化x'=(x-mean)/var——每一层的分布都是标准的正态分布，导致其学习不到输入的数据特征二.BN与传统归一化的区别在传统的归一化基础上引入伸缩变量：r和平移变量：B。在模型中，这两个参数为可训练参数。即：3.x''=r*x'+B 。其作用为：将特征的分布从饱和区（梯度爆炸或者梯度消失）拉到非饱和区。4.通过滑动平均更新全局的均值方差running_mean和running_var——用于线上预估时的bn。红...

2020-09-15 22:20:29 508

原创为什么L1比L2更容易得到稀疏解

这个问题被面试官问到的概率极其高。网上给多解释都是几何理解。个人感觉有些牵强（或者是作者没get到点）。总之，为了避免再次被问到卡壳。搜了很多解释。终于，找到了一个最好理解的答案。从数学角度去理解。原始的损失函数：Loss(w)。设其在0的导数为D(0) = d(0).引入L1的损失函数：Loss(w)+lamda1*|w|。则其在0的导数为D1(w) = d(0)+lamda1*sgn(...

2020-05-04 12:07:53 1059

原创优化算子adam——为什么说adam融合了momentum和RMSprop(均方根传播)的优点

准备知识（可选择跳过）momentum参数初始化：m:momentum 系数；lr：learning rate 学习率；权重w计算梯度和更新数度：g(t);v(t) = m*v(t-1)+lr*g(t)更新参数：w(t) = w(t-1) - v(t)备注：优点是学习速度快。避免sgd算法梯度更新幅度摆动大的问题。缺点是依赖全局的学习率。adagrade和RMSpr...

2020-04-30 23:04:03 1019

原创 2019-12-16

为什么sgd不能在线预估学习sgd是用一小批样本计算梯度，在线小批样本的梯度很容易导致模型学偏。而ftrl用了累计的梯度，在线学习不会导致模型学偏...

2019-12-16 20:01:30 71

原创 SemanticException The abstract syntax tree is null

hive 中的union all 必须保证两张表的字段名需一致！否则就会报语法错误。

2018-10-28 23:55:27 8004

原创手推Adaboost

2018-07-29 21:34:50 800 4

原创判别模型和生成模型

2018-05-25 22:14:12 116

原创逻辑回归（logistics regression）和支持向量机（support vector machine）的区别

这个问题算是很多公司面试初级算法工程师时经常提的问题，可以轻松的检测面试的的算法基础能力。根据这两种算法理论以及应用场景总结有主要有以下几种区别：1.损失函数不同，LR：log lossSVM：hinge loss（常用来求解间距最大化问题，代表性的就是SVM）这两种损失函数都是加重对分类影响较大的点的权重，减少与分类数据关系较少的点的权重。但不同的是，LR 是考虑所有的样本点，而 SVM只考虑少...

2018-05-13 18:42:45 1948

原创 Item2Item中为什么可以用欧式距离衡量相似度

当被腾讯面试官问道这个问题，我的第一反应和大多数的你一样，用欧式距离衡量相似度不是理所当然的吗？为啥还有问什么。如果是这样想的，那么对于这个问题你还是知其然不知其所以然。俗话说，吃一堑，长一智。总结一下两个原因，更详细的去知乎寻答案吧。1.首先，用欧式距离来计算Item之前的相似度，不是直接计算Item 打分矩阵的欧式距离，而是，需要先对Item的特征进行归一化，保证各个维度是在相同的刻度级别上取...

2018-04-25 21:14:25 499

原创信息熵

信息熵是描述信息的混乱程度，也叫不确定程度。计算公式如下：根据公式可以得出以下2个重要的结论（理解这两个结论，为后续理解决策树很有帮助哦）：1.信息熵事件可能出现的结果数量有关，在概率均等的情况下，存在的可能越多，信息熵越大，即事件的不确定性越大。例如：随机抛一枚硬币，出现结果为正面、负面的概率分别为均为1/2。信息熵为：随机投掷一枚骰子，出现点数1、2、3、4、5、6的概率均为1/6。信息熵为：...

2018-04-07 17:42:14 7955

原创分类和聚类的区别

要知道分类和聚类的区别，了解一下有监督学习和无监督学习。这两个概念算是算法基础，同时也是面试官经常会问到的(小姐姐我就被问到了，当然我回答上来了--)有监督学习训练数据包括输入（features）和输出（lable）。常见的如：逻辑回归，支持向量机，深度学习。无监督学习训练数据只有输入。只能通过特征的相似性对样本聚类。常见的如：K-means，DBSCAN。分类和聚类的区别分类：有训练数据，且训练...

2018-04-06 09:58:07 2314

weixin_38381682的博客