自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 ESMM的理解和高频面试问题

ESMM的理解首先,理解部分主要是ESMM要解决什么问题,以及解决方案。弱未度过原文的可以查阅原论文。ESMM的理解——ESMM要解决什么问题Sample Selection Bias (SSB) :传统的cvr模型是基于点击的样本建模,而线上预估是在全局样本上预估——即所有候选集上。这就出现了线下训练的样本空间(有点击样本)和预估的样本空间(全局样本)有偏差,即样本空间分布不同,这就是所谓的SSB问题。

2023-02-24 10:41:49 709

原创 多任务建模之PPNet

多任务ppnet网络结构

2022-10-11 10:32:20 6706

转载 为什么不用平方误差(MSE)作为Logistic回归的损失函数?

转载大佬的文章,以便后续再翻阅https://blog.csdn.net/lafengxiaoyu/article/details/109916750

2021-03-18 10:59:46 639

原创 如何理解self attention中的QKV矩阵

如何理解self attention中的QKV矩阵疑问:三个矩阵的形状是一样的(embd_dim*embd_dim),作用也都是对输入句子的embedding做线性变换(tf.matmul(Q,input_value),tf.matmul(K,input_value),tf.matmul(V,input_value))。那么,为什么需要三个矩阵QKV。对于这个问题,在我第一次看了b站博主视频https://www.bilibili.com/video/BV1P4411F77q(强烈推荐)。就已经

2021-03-15 22:10:56 10187

原创 安装cvxopt遇到的坑及解决方案

根据排了一下午坑的总结:1.安装cvxopt之前需要将本地已安装的numpy删除(对numpy的版本是有严格要求的,pip uninstall numpy)。2.安装cvxopt:https://www.lfd.uci.edu/~gohlke/pythonlibs/#cvxopt。根据电脑系统版本选择相应的版本——但是!!!windows不管是32还是64的,都只能装32的。这是个bug。下载到相应目录后,并进入到该目录,使用pip installcvxopt-1.1.9-cp27-cp27m-w.

2020-09-18 16:28:51 2369 2

原创 Batch Normalization 的原理和作用

一.传统的归一化1.计算均值mean和方差var2.归一化x'=(x-mean)/var——每一层的分布都是标准的正态分布,导致其学习不到输入的数据特征二.BN与传统归一化的区别 在传统的归一化基础上引入伸缩变量:r和平移变量:B。在模型中,这两个参数为可训练参数。即:3.x''=r*x'+B 。其作用为:将特征的分布从饱和区(梯度爆炸或者梯度消失)拉到非饱和区。4.通过滑动平均更新全局的均值方差running_mean和running_var——用于线上预估时的bn。红...

2020-09-15 22:20:29 508

原创 为什么L1比L2更容易得到稀疏解

这个问题被面试官问到的概率极其高。网上给多解释都是几何理解。个人感觉有些牵强(或者是作者没get到点)。总之,为了避免再次被问到卡壳。搜了很多解释。终于,找到了一个最好理解的答案。从数学角度去理解。原始的损失函数:Loss(w)。设其在0的导数为D(0) = d(0).引入L1的损失函数:Loss(w)+lamda1*|w|。则其在0的导数为D1(w) = d(0)+lamda1*sgn(...

2020-05-04 12:07:53 1059

原创 优化算子adam——为什么说adam融合了momentum和RMSprop(均方根传播)的优点

准备知识(可选择跳过)momentum参数初始化:m:momentum 系数;lr:learning rate 学习率;权重w计算梯度和更新数度:g(t);v(t) = m*v(t-1)+lr*g(t)更新参数:w(t) = w(t-1) - v(t)备注:优点是学习速度快。避免sgd算法梯度更新幅度摆动大的问题。缺点是依赖全局的学习率。adagrade和RMSpr...

2020-04-30 23:04:03 1019

原创 2019-12-16

为什么sgd不能在线预估学习sgd是用一小批样本计算梯度,在线小批样本的梯度很容易导致模型学偏。而ftrl用了累计的梯度,在线学习不会导致模型学偏...

2019-12-16 20:01:30 71

原创 SemanticException The abstract syntax tree is null

hive 中的union all 必须保证两张表的字段名需一致!否则就会报语法错误。

2018-10-28 23:55:27 8004

原创 手推Adaboost

2018-07-29 21:34:50 800 4

原创 判别模型和生成模型

这是算法的两个基本概念。其实很简单。判别模型是直接学习P(y|x);而生成模型是学习P(y|x)和P(y);p(y|x判别模型是直接学习p(y|x)p(y|x)判别模型是直接学习p(y|x)p(y|x)...

2018-05-25 22:14:12 116

原创 逻辑回归(logistics regression)和支持向量机(support vector machine)的区别

这个问题算是很多公司面试初级算法工程师时经常提的问题,可以轻松的检测面试的的算法基础能力。根据这两种算法理论以及应用场景总结有主要有以下几种区别:1.损失函数不同,LR:log lossSVM:hinge loss(常用来求解间距最大化问题,代表性的就是SVM)这两种损失函数都是加重对分类影响较大的点的权重,减少与分类数据关系较少的点的权重。但不同的是,LR 是考虑所有的样本点,而 SVM只考虑少...

2018-05-13 18:42:45 1948

原创 Item2Item中为什么可以用欧式距离衡量相似度

当被腾讯面试官问道这个问题,我的第一反应和大多数的你一样,用欧式距离衡量相似度不是理所当然的吗?为啥还有问什么。如果是这样想的,那么对于这个问题你还是知其然不知其所以然。俗话说,吃一堑,长一智。总结一下两个原因,更详细的去知乎寻答案吧。1.首先,用欧式距离来计算Item之前的相似度,不是直接计算Item 打分矩阵的欧式距离,而是,需要先对Item的特征进行归一化,保证各个维度是在相同的刻度级别上取...

2018-04-25 21:14:25 499

原创 信息熵

信息熵是描述信息的混乱程度,也叫不确定程度。计算公式如下:根据公式可以得出以下2个重要的结论(理解这两个结论,为后续理解决策树很有帮助哦):1.信息熵事件可能出现的结果数量有关,在概率均等的情况下,存在的可能越多,信息熵越大,即事件的不确定性越大。例如:随机抛一枚硬币,出现结果为正面、负面的概率分别为均为1/2。信息熵为:随机投掷一枚骰子,出现点数1、2、3、4、5、6的概率均为1/6。信息熵为:...

2018-04-07 17:42:14 7955

原创 分类和聚类的区别

要知道分类和聚类的区别,了解一下有监督学习和无监督学习。这两个概念算是算法基础,同时也是面试官经常会问到的(小姐姐我就被问到了,当然我回答上来了--)有监督学习训练数据包括输入(features)和输出(lable)。常见的如:逻辑回归,支持向量机,深度学习。无监督学习训练数据只有输入。只能通过特征的相似性对样本聚类。常见的如:K-means,DBSCAN。分类和聚类的区别分类:有训练数据,且训练...

2018-04-06 09:58:07 2314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除