自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 收藏
  • 关注

原创 FM\DeepFM\XDeepFM概述

推荐系统中的特征交叉组合模型FM:对于每个原始特征,FM都会学习一个隐向量。模型通过穷举所有的特征对,并进行逐一检测特征对的权值来自动识别出有效的特征组合。特征对的权值则是通过该特征对涉及的两个原始特征的隐向量的内积来计算。主要优势:FM的优势就在于1、特征组合 2、解决维度爆炸。首先是特征组合,通过对两两特征组合,引入交叉项特征,提高模型得分;其次是应对维度爆炸,通过引入隐向量(且对参数矩阵进行矩阵分解),完成对特征的参数估计。FNN:采用FM预训练得到的隐含层及其权重作为神经网络的第一层的

2020-11-22 21:34:27 23

原创 推荐系统中的Attention

AFM:attention层加在特征交叉层和最终的输出层之间,通过attention net对每一个交叉特征打分再加权求和。AFM模型总结1、主体思想:FM+Attention 考虑不同交叉特征的重要程度不同,使用attention机制对每个交叉特征的重要性进行打分,作为交叉特征的权重。2、优点:缓解了FM存在的问题(并不是所有二阶交叉特征都是有效的,会有一些垃圾特征交叉的存在,需要施以不同的权重),利用目前比较流行的attention的概念,对每个特征交叉分配不同的attention,使没用的交叉

2020-11-22 19:17:52 7

原创 推荐系统的fairness、bias、debias

曝光bias:数据平滑,贝叶斯平滑、威尔逊置信区间平滑;采样Exploit与Exploration;Calibrated(标定校准) Recommendation,采用贪心法求解最终推荐列表,使推荐列表中的物品类别分布与训练数据中接近,而非被曝光多的类别完全占据;将fairness-quality tradeoff转化为线性规划问题来求解;selection bias:IPS加权Position bias:两类方法图解什么是校准化推荐,校准和多样性的矛盾,实现校准的做法校准化推荐:

2020-11-22 15:41:46 8

原创 推荐系统之召回、排序

一个特征不足以解释所有用户的偏好。

2020-11-22 11:36:54 13

原创 XC准备

作者:快让我成功上岸吧链接:https://www.nowcoder.com/discuss/196380?type=post&order=time&pos=&page=1&channel=1009&source_id=search_post来源:牛客网一面:F1值半监督情感分析word2vec为什么用这个模型lda二面:简单问下项目然后就其他常规的问题gbdt和rf的不同聚类算法分类评价指标特征离散化样本不平衡剩下问了点sql还有

2020-11-22 09:12:33 3

原创 gbdt和xgb的并行串行

gbdt哪些部分可以并行xgb的并行

2020-11-20 20:21:18 5

原创 train_batches = train_data.shuffle(1000).padded_batch(10)

train_batches = train_data.shuffle(1000).padded_batch(10)test_batches = test_data.shuffle(1000).padded_batch(10)train_batch, train_labels = next(iter(train_batches))padded_batchshuffle举例shuffle三种顺序next(iter)

2020-11-18 17:57:51 12

原创 numpy的广播机制

numpy的广播机制

2020-11-18 16:38:45 4

原创 tensorflow tfds读取数据padded_batch

(train_data, test_data), info = tfds.load(‘imdb_reviews/subwords8k’,split = (tfds.Split.TRAIN, tfds.Split.TEST),with_info=True, as_supervised=True)train_batches = train_data.shuffle(1000).padded_batch(10)test_batches = test_data.shuffle(1000).padded_b

2020-11-15 15:32:44 12

原创 CNN实现的一些层的作用

flatten层的作用作用:Flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡。Flatten不影响batch的大小。

2020-11-15 12:19:38 21

原创 softmax函数简述及求导

一分钟了解softmax函数反向传播用到的求导过程

2020-11-13 09:46:49 16

原创 收集的问题(gbdt xgb)

XGB为什么要二阶展开:作者:Zsank链接:https://www.zhihu.com/question/277638585/answer/522272201来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。Xgboost使用二阶展开效果更好的原因,应该与牛顿法使用海塞矩阵比SGD好的原因一样。说说我自己的想法,关于Xgboost用泰勒二阶展开的原因,主要有两点:Xgboost官网上有说,当目标函数是MSE时,展开是一阶项(残差)+二阶项的形式(官网说这是一个nice

2020-11-10 11:28:22 38 1

原创 线下AUC和线上点击率不一致

离线AUC和线上点击率不一致特征穿越时间穿越和会话穿越

2020-11-10 10:27:30 11

原创 L1不可导怎么处理

坐标轴下降

2020-11-09 16:08:33 7

原创 大华

python list和tuple的区别?python的list是可迭代的嘛 可is 和==区别top命令作用

2020-11-05 15:50:31 2

原创 dropout和BN

两个tricks

2020-11-05 08:55:33 14

原创 TE TM波

TE TM波TE 横电波 传播方向有磁场分量,Ey Hx Hz 在传播方向上有磁场分量但无电场分量s波TM横磁波 传播方向有电场分量,Hy Ex Ez 在传播方向上有电场分量而无磁场分量 p波

2020-11-04 11:34:22 15

原创 排序算法时间复杂度及稳定性

稳定性

2020-10-30 19:09:18 9

原创 LR-Poly2-FM-FFM

推荐搜索相关论文基础篇1.结构上LR:LR认为最终的标签,例如CTR中点击与否是由我们的每个特征的线性作用决定的,这里面每个特征的贡献度不一样,所以我们希望学习得到每个特征其对应的贡献程度,此处我们用线性的方式学习,g(x)=w0+∑iwixig(x) = w_0 + \sum_{i}w_ix_ig(x)=w0​+∑i​wi​xi​最终为了方便我们用下面对式子将我们对预测结果缩放到0-1之间的概率,y=11+exp(−g(x))y = \frac{1}{1+exp(-g(x))}y=1+exp(

2020-10-26 16:02:48 28

原创 机器学习笔试题

4、下列哪个不属于CRF模型对于HMM和MEMM模型的优势(B )A特征灵活B速度快C可容纳较多上下文信息D全局最优HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的

2020-10-21 10:29:45 13

原创 中文分词的基本方法

中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。在基于词典的方法中,可以进一步分为最大匹配法,最大概率法,最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向

2020-10-21 10:20:54 14

原创 相似度计算方法

几种方法杰卡德系数 余弦相似度 皮尔逊系数 距离—欧氏距离,曼哈顿距离,明氏距离有计算公式更多系数

2020-10-21 08:43:49 6

原创 梯度下降归一化的原因

原因归一化方法

2020-10-20 10:38:26 48

原创 树模型为什么不需要归一化

知乎面试专栏

2020-10-20 10:34:59 14

原创 一维卷积

一维卷积计算和图解

2020-10-20 10:34:21 16

原创 优化算法

列举了梯度下降以外的方法介绍l了rmsprop几种梯度下降的优缺点

2020-10-20 10:14:49 15

原创 常见的激活函数及其对比

激活函数优缺点

2020-10-20 09:06:49 7

原创 l1 l2正则化

l1 l2正则化项的理解

2020-10-19 23:51:03 50

原创 调参调不到结果的方法

深度学习调参技巧的知乎回答造出这种现象的原因可以分为4大类:1、模型实现中的bug:比如标签错误的问题。2、超参数选择不合适:模型对超参数很敏感,学习率太高或太低都不行3、数据模型不适配:比如你要训练一个自动驾驶图像识别的模型,用ImageNet数据集来训练就不合适。4、数据集的构造问题:没有足够数据、分类不均衡、有噪声的标签、训练集合测试集分布不同。...

2020-10-19 21:25:14 16

原创 合并k个有序数组

归并 时间复杂度knlogk k是链表个数,n是最长的链表长度

2020-10-19 21:09:15 12

原创 lightgbm对比xgboost

lightgbm详解了直方图算法xgboost和lightgbm对比的总结直方图算法有图解

2020-10-19 13:43:47 22

原创 带约束优化拉格朗日乘子

约束优化方法之拉格朗日乘子与KKT条件有求解例子有详细分析等式约束问题直接用拉格朗日乘子法,不等式约束转化为满足KKT条件下应用拉格朗日乘子法求解,拉格朗日乘子法得到的不一定是最优解,只有当函数是凸函数的条件下才能求得最优解,否则可能求出多个局部最优解。无约束优化—>等式约束优化---->不等式约束优化KKT条件中的Σβiyi=0 和 βi>=0 当约束区域包含目标函数原有的可行解时,也就是可行解x落在g(x)<0范围内,约束条件条件不起作用,令λ=0,直接极小化f(

2020-10-17 12:18:17 29

原创 Android ios

const * int p:Const int 、int const*、const int &const int* p-----p是指针变量,可以被赋值指向另一个地址,p指向的变量是常量,不能被修改。int const p-----p是常量指针,不能修改它的指向,可以修改p的值const int &-----代表该引用为常引用,被引用的对象不可改变。若是在形参中使用,则不可达到在函数里面修改变量值的目的虚函数:虚函数是C++中用于实现多态(polymorphism)的机制。核心

2020-10-14 14:59:25 7

原创 树模型相关问题

随机森林的随机性体现在:每棵树分配的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的,可以防止过拟合。随机森林的树是不是越多越好:1.更多的树浪费资源2.数量一定后模型的性能基本保持稳定,随着树的增加提升非常小3.随机森林中通过引入随机抽样和随机抽列,使模型对异常点有更好的鲁棒性,模型的泛化能力更强。如果是无限颗树,那其实会抵消随机性的引入,最后的模型会是一个过拟合的模型,其泛化性能也会降低。4.噪音较大时,模型也会学习到更多噪音相关的信息,发生过拟合,降低泛化性能。...

2020-10-07 16:48:33 30

原创 为什么归一化和标准化及二者比较

归一化和标准化概述机器学习-归一化

2020-10-06 09:33:27 50

原创 ID类特征

机器学习中如何利用ID类特征加入id类特征的意义:1.可以使学习过程中,尽管不能实现完全的个性化,但能将不同用户的行为模式分别开,让每个用户的信息更合理的影响整体模型,使模型泛化能力更好2.使模型对每个id有更细粒度的排序能力,使模型的个性化效果更好id特征为什么用,怎么用一般来说ID类特征本身没有作用,比如userid和itemid都是根据设备号或者顺序去分配。但是当ID特征交互后,或者按照顺序组合起来后就有意义。比如,1)userid和itemid交互后,也就是用户对物品的评分矩阵,这时候就可

2020-10-05 20:33:02 50

原创 广告点击率模型中,LR, GBDT+LR, FM, DNN等模型的优点和缺点?实际效果如何?

知乎问题

2020-10-05 17:57:12 15

原创 知乎:深度ctr预估中id到embedding目前工业界主流是端到端直接学习还是预训练?

深度ctr预估中id到embedding目前工业界主流是端到端直接学习还是预训练?回答一2.1如果实体的已有特征已经能够提供模型需要的所有信息,那么可学习的embedding就没有太多效果。但不少领域我们对实体的了解的信息太少,但数据量较为充足,这时候可以给模型一个“存储空间”,让其可以从数据中学习每个实体的特性。这在我见过的一些符合这类情况的问题下很明显。3.2这样我们就能够“理解”为什么增加了一个会提供新信息的特征后,模型效果会变差——我们在过程中同时引入了过多的模型复杂度增量。...

2020-10-05 17:40:41 22

原创 什么是embedding

知乎回答1.深度学习和传统推荐方法(协同过滤)中的embedding1-1embedding的应用之一:通过计算用户和物品的Embedding相似度,Embedding可以直接作为推荐系统的召回层或者召回方法之一。对embedding在召回方面的应用浓缩总结一下就是:通过计算用户和1-2物品或物品和物品的Embedding相似度,来缩小推荐候选库的范围。1-3除此之外,通过总结目前主流的ctr预估模型比如wide&deep,deepFM,PNN和DCN等等可以发现,embedding还有一个

2020-10-05 17:31:57 71

原创 特征平滑方法+长尾问题

特征平滑方法即样本不均衡问题

2020-10-04 20:55:52 32

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除